第 32 课

GSEA分析

课程讲义导读 · 聚焦本课核心概念、分析流程与复现要点

说明:本页适合用于快速回顾本课重点、关键步骤与常用示例。

主讲老师第三十二课:GSEA分析

今天是对转录组测序分析部分的收尾内容,测序部分以 TCGA 数据下载为例,随后讲解了 TCGA,GTEx,和 ICGC 数据库数据的下载与整理,然后介绍了三大 R 包的差异分析和可视化。接着,是富集分析的三大层次,GO,KEGG 和 GSEA 分析。关于 GSEA 分析(GSEA.zip),我们今天会介绍一下,同时介绍一下 GSEA 的大哥,GSVA 分析,然后讲一下三大调控网络,分别是蛋白调控网络,转录调控网络,以及 ceRNA 调控网络。三个数据库,三个 R 包,三大富集,三条网络正式开始之前,先来回顾一下昨天的内容,富集分析讲解到现在,不知道大家有没有发现几个问题,比如说,1.我们一直都在只分析显著差异表达基因,但是那些表达变化没有那么大真的作用就不大吗?不管是 GO 分析还是 KEGG 分析,我们一直都只在关注那些显著差异表达基因,那些表达变化没有那么大真的作用就不大吗?举个例子,在体内,有些关键的酶,或者说代谢途径里面的有些基因,如果他们的表达量达到 2 倍以上的差异,将是一件多么可怕的事情。他们的变化比较微弱,不代表他们不重要。2.不同的 logFC 得到的差异基因数量不同,那么,我们设置的 logFC 阈值是否合理?一直以来,对于这个阈值,我们都是根据经验进行选择,从 0.5,到 1,1.5,2,没有一个标准答案。此时,我们就需要借助

另外一种富集分析类型,GSEA 分析

来简单介绍一下 GSEA 分析,和差异分析类似,GSEA 也是需要计算 treat-control 组的差异,得到相应的 logFC 值,但是区别在于它先不设定阈值,然后,从大到小对差异倍数进行排序,最终得到了一个基因列表。之后,使用已经发布并且公认的基因集做检验,观察其在 GO,KEGG 等基因集中的富集情况。在整个分析过程中,富集分数这个名词是个重点,ES(Enrichment score),当使用基因集的基因来遍历我们的基因列表时,就会判断基因集的基因是不是存在于基因列表,如果存在就加分,不存在就减分,通过不断的加分减分,最终得出富集分数,然后,根据得分的高低,判断该基因集在组中的富集情况。下面,我们来看一下,如何进行 GSEA 富集分析。关于 GSEA 分析,这里讲一下 R 的分析方法,另外软件的使用可以参考生信全书上篇的内容。

进行 GSEA 分析前,首先自然也需要差异分析得到的结果,还是读取这部分差异分析的结果数据。

1.准备工作

1.1 添加 ENTREZID 列

和其他的富集分析一样,GSEA 同样需要进行 Entrez id 的转换,转换 Entrez id 后,根据 logFC 进行排序。

1.2 按照 logFC 值对基因进行排序

1.提取 logFC 值,并储存在一个向量中

2: 对 geneList 进行命名3: 根据 logFC 值降序排列接下来,就是 GSEA 分析,由于不同的数据集纳入,会得到不同的结果,因此,这里介绍三种常用的分析方法

2.GO 的 GSEA 富集分析:gseGO

首先,我们使用 gseGO()函数来进行计算其中,参数 nPerm = 1000,代表随机迭代 1000 次,这也是为什么每个人运行得到的GSEA 结果是存在差异的,甚至你前一次运行和后一次运行的结果都有一定的区别,在总体趋势不变的情况下,会有一些细节的区别。同时,次数越高,结果越可信,越趋于稳定,随后,将其中的基因名变成 symbol ID。

接着,转换成数据框,并保存结果。

随后,将富集结果,挑选感兴趣的通路,进行可视化展示

3.KEGG 的 GSEA 富集分析:gseKEGG

GO 的基因集能做 GSEA,那么 KEGG 的相关基因集同样可以

使用 gseKEGG()函数进行富集分析。

接着,将结果转换成数据框同样的,可以根据结果,对感兴趣的通路进行可视化

4.MSigDb 的 GSEA 富集分析:GSEA

除了基于 GO 和 KEGG 的 GSEA 分析,我们还可以下载 MSigDb 中整理好的基因集,从而进行 GSEA 富集 分 析 , 对 于 其 中 的 基 因 集 , 大 家 可 以 前 去 官 网(https://www.gsea-msigdb.org/gsea/downloads.jsp)进行下载使用。这里需要注意自己输入数据集的基因名,其中 ENTREZID 对应 EntrezGene ID,而 symbols 则对应 Gene Symbol名,关于这部分基因集,已经下载好放在压缩文件里面了,不需要再次下载。下载完以后,将 其 储 存 在名为“ msigdb_v7.0_GMTs” 的 文 件 夹 中 。 我 们 选 择其 中 一 个 基 因 集(“msigdb.v7.0.entrez.gmt”)来进行计算对于里面的基因集,大家可以根据需要自己选择,把对应的名字进行替换即可,注意了,文件名记得加上后缀。简单介绍一下这几个文件的类型与区别,MSigDB(Molecular Signatures Database)数据库中定义了已知的基因集合包括 H 和 C1-C7 八个系列(Collection)。

H: hallmark gene sets (癌症)特征基因集合,共 50 组,最常用。

C1: positional gene sets 位置基因集合,根据染色体位置,共 326 个,用的很少。

C2: curated gene sets:经校验基因集合,基于通路、文献等,kegg 通路包含在 c2 当 中。

C3: motif gene sets:模式基因集合,主要包括 microRNA 和转录因子靶基因两部分。

C4: computational gene sets:计算基因集合,通过挖掘癌症相关芯片数据定义的基因集合。

C5: GO gene sets:Gene Ontology 基因本体论,包括 BP(生物学过程 biological process,细胞原件cellular component 和分子功能 molecular function 三部分)。

C6: oncogenic signatures:癌症特征基因集合,大部分来源于 NCBI GEO 发表芯片数据C7: immunologic signatures: 免疫相关基因集合。

读取指定的文件,其中,参数 file.path(msigdb_GMTs,msigdb) 表示工作目录下,变量msigdb_GMTs 文件夹下面的变量 msigdb 文件。

将基因列表和基因集准备好后,直接讲输入数据集指定,输入 GSEA()函数中进行分析。

随后,将结果转换为数据框,并进行保存,接下来,对结果进行可视化展示(1).单个图绘制通过参数 pvalue_table = T 来展示相应的信息。

(2).汇总结果此时展示前 5 条通路的结果直接用数字对应富集结果的通路顺序即可对了,如果大家运行后得到的结果图和我的略有不同,这是正常的现象。在图中,每个病人对应一个富集分数,将其进行汇总,如果是凸起来的峰,则表示该通路在实验组里面富集,如果是凹下去的谷,表示在对照组里面富集,这样,根据自己的需要,可以对结果进行展示,关于 GSEA 的分析,就先介绍到这里。

← 返回批次1总导航