第 32 课：GSEA分析 - PDF深度整合批次1

主讲老师第三十二课：GSEA分析

今天是对转录组测序分析部分的收尾内容，测序部分以 TCGA 数据下载为例，随后讲解了 TCGA，GTEx，和 ICGC 数据库数据的下载与整理，然后介绍了三大 R 包的差异分析和可视化。接着，是富集分析的三大层次，GO，KEGG 和 GSEA 分析。关于 GSEA 分析（GSEA.zip），我们今天会介绍一下，同时介绍一下 GSEA 的大哥，GSVA 分析，然后讲一下三大调控网络，分别是蛋白调控网络，转录调控网络，以及 ceRNA 调控网络。三个数据库，三个 R 包，三大富集，三条网络正式开始之前，先来回顾一下昨天的内容，富集分析讲解到现在，不知道大家有没有发现几个问题，比如说，1.我们一直都在只分析显著差异表达基因，但是那些表达变化没有那么大真的作用就不大吗？不管是 GO 分析还是 KEGG 分析，我们一直都只在关注那些显著差异表达基因，那些表达变化没有那么大真的作用就不大吗？举个例子，在体内，有些关键的酶，或者说代谢途径里面的有些基因，如果他们的表达量达到 2 倍以上的差异，将是一件多么可怕的事情。他们的变化比较微弱，不代表他们不重要。2.不同的 logFC 得到的差异基因数量不同，那么，我们设置的 logFC 阈值是否合理？一直以来，对于这个阈值，我们都是根据经验进行选择，从 0.5，到 1，1.5，2，没有一个标准答案。此时，我们就需要借助

另外一种富集分析类型，GSEA 分析

来简单介绍一下 GSEA 分析，和差异分析类似，GSEA 也是需要计算 treat-control 组的差异，得到相应的 logFC 值，但是区别在于它先不设定阈值，然后，从大到小对差异倍数进行排序，最终得到了一个基因列表。之后，使用已经发布并且公认的基因集做检验，观察其在 GO，KEGG 等基因集中的富集情况。在整个分析过程中，富集分数这个名词是个重点，ES(Enrichment score)，当使用基因集的基因来遍历我们的基因列表时，就会判断基因集的基因是不是存在于基因列表，如果存在就加分，不存在就减分，通过不断的加分减分，最终得出富集分数，然后，根据得分的高低，判断该基因集在组中的富集情况。下面，我们来看一下，如何进行 GSEA 富集分析。关于 GSEA 分析，这里讲一下 R 的分析方法，另外软件的使用可以参考生信全书上篇的内容。

进行 GSEA 分析前，首先自然也需要差异分析得到的结果，还是读取这部分差异分析的结果数据。

1.准备工作

1.1 添加 ENTREZID 列

和其他的富集分析一样，GSEA 同样需要进行 Entrez id 的转换，转换 Entrez id 后，根据 logFC 进行排序。

1.2 按照 logFC 值对基因进行排序

1.提取 logFC 值，并储存在一个向量中

2: 对 geneList 进行命名3: 根据 logFC 值降序排列接下来，就是 GSEA 分析，由于不同的数据集纳入，会得到不同的结果，因此，这里介绍三种常用的分析方法

2.GO 的 GSEA 富集分析：gseGO

首先，我们使用 gseGO()函数来进行计算其中，参数 nPerm = 1000，代表随机迭代 1000 次，这也是为什么每个人运行得到的GSEA 结果是存在差异的，甚至你前一次运行和后一次运行的结果都有一定的区别，在总体趋势不变的情况下，会有一些细节的区别。同时，次数越高，结果越可信，越趋于稳定，随后，将其中的基因名变成 symbol ID。

接着，转换成数据框，并保存结果。

随后，将富集结果，挑选感兴趣的通路，进行可视化展示

3.KEGG 的 GSEA 富集分析：gseKEGG

GO 的基因集能做 GSEA，那么 KEGG 的相关基因集同样可以

使用 gseKEGG()函数进行富集分析。

接着，将结果转换成数据框同样的，可以根据结果，对感兴趣的通路进行可视化

4.MSigDb 的 GSEA 富集分析：GSEA

除了基于 GO 和 KEGG 的 GSEA 分析，我们还可以下载 MSigDb 中整理好的基因集，从而进行 GSEA 富集分析，对于其中的基因集，大家可以前去官网（https://www.gsea-msigdb.org/gsea/downloads.jsp）进行下载使用。这里需要注意自己输入数据集的基因名，其中 ENTREZID 对应 EntrezGene ID，而 symbols 则对应 Gene Symbol名，关于这部分基因集，已经下载好放在压缩文件里面了，不需要再次下载。下载完以后，将其储存在名为“ msigdb_v7.0_GMTs” 的文件夹中。我们选择其中一个基因集（“msigdb.v7.0.entrez.gmt”）来进行计算对于里面的基因集，大家可以根据需要自己选择，把对应的名字进行替换即可，注意了，文件名记得加上后缀。简单介绍一下这几个文件的类型与区别，MSigDB（Molecular Signatures Database）数据库中定义了已知的基因集合包括 H 和 C1-C7 八个系列（Collection）。

H: hallmark gene sets （癌症）特征基因集合，共 50 组，最常用。

C1: positional gene sets 位置基因集合，根据染色体位置，共 326 个，用的很少。

C2: curated gene sets：经校验基因集合，基于通路、文献等，kegg 通路包含在 c2 当中。

C3: motif gene sets：模式基因集合，主要包括 microRNA 和转录因子靶基因两部分。

C4: computational gene sets：计算基因集合，通过挖掘癌症相关芯片数据定义的基因集合。

C5: GO gene sets：Gene Ontology 基因本体论，包括 BP（生物学过程 biological process，细胞原件cellular component 和分子功能 molecular function 三部分）。

C6: oncogenic signatures：癌症特征基因集合，大部分来源于 NCBI GEO 发表芯片数据C7: immunologic signatures: 免疫相关基因集合。

读取指定的文件，其中，参数 file.path(msigdb_GMTs,msigdb) 表示工作目录下，变量msigdb_GMTs 文件夹下面的变量 msigdb 文件。

将基因列表和基因集准备好后，直接讲输入数据集指定，输入 GSEA()函数中进行分析。

随后，将结果转换为数据框，并进行保存，接下来，对结果进行可视化展示(1).单个图绘制通过参数 pvalue_table = T 来展示相应的信息。

(2).汇总结果此时展示前 5 条通路的结果直接用数字对应富集结果的通路顺序即可对了，如果大家运行后得到的结果图和我的略有不同，这是正常的现象。在图中，每个病人对应一个富集分数，将其进行汇总，如果是凸起来的峰，则表示该通路在实验组里面富集，如果是凹下去的谷，表示在对照组里面富集，这样，根据自己的需要，可以对结果进行展示，关于 GSEA 的分析，就先介绍到这里。