第 41 课：ESTIMATE 算法 - PDF深度整合批次1

主讲老师第四十一课：ESTIMATE 算法

先简单介绍一下整个的背景，自 2018 年诺贝尔生理学奖公布以后，肿瘤免疫治疗掀起了一阵阵的研究高潮，当然，在生信研究中也不例外，各种免疫相关分析算法和在线分析网站逐渐出现。在题为Quantifying tumor-infiltrating immune cells from transcriptomics data的综述中，作者总结介绍了已有的各种免疫细胞评估方法。

包括经典的 CIBERSORT 和 xCell 方法等，同时，作者还比较了不同的方法之间的各自特点。关于免疫细胞浸润，我们先来看一下肿瘤组织整体的免疫特征评分。2013 年在 Nature Communication 杂志上，发表了一篇名为“Inferring tumour purity and stromal and immune cell admixture from expressiondata.”的文章在文章中，作者开发了一种新的基于表达信息的肿瘤纯度判定算法，命名为 Estimation of STromal andImmune cells in MAlignant Tumours using Expression data，也就是示例文献2 中作者使用的免疫和基质细胞评分，总称为 ESTIMATE 评分（ESTIMATE.zip）。在算法中，ESTIMATE 主要是基于ssGSEA，对 stromal and immune 两个基因集，以及肿瘤纯度信息进行打分，并且很多后续公共数据库挖掘的文章都采用它来对肿瘤进行分组比较，下面，我们一起来看一下如何使用下载好的转录组数据

来进行 ESTIMATE 算法分析

1.准备工作

1.1 R 包的安装与读取

对于 ESTIMATE 分析，存在一个专门的 R 包，名为 estimate，安装完成后读取 R 包。

1.2 读取表达文件

首先，将之前准备好的 mRNA 表达数据，将其放到工作目录下，并读取进来同时，我们使用 log()函数对表达数据进行对数转换

2.估计各类免疫得分

首先，把 txt 文档里面的表达矩阵读入 R 里，作为输入文件，转化为 gct 格式，作为输出文件。由于该算法使用 HUGO GeneSymbols 或 Entrez 基因 ID，因此输入数据中的行名称必须是基因 SYMBOL 或Entrez 基因 ID。

由于 ESTIMATE 算法主要是基于 ssGSEA 算法，给大家简单介绍一下 ssGSEA 算法，它主要是根据基因的排序来进行计算操作，这时基因的表达量本身并不重要，根据排序最终给出一个最终的富集得分，然后，计算基质和免疫评分，分别代表肿瘤组织中基质和免疫细胞的存在gct 格式的 input 表达矩阵，即刚才输出的文件，作为输入文件，使用默认平台参数platform="affymetrix" ，因为 TPM 和芯片信号强度类似。使用 estimateScore 得到计算好的3 个score 值并且保存到本地文件将 gct 文件中的基因名，与 StromalScore 和 ImmuneScore 两个基因集合进行匹配，得到了最终的结果。总结一下，整个计算过程分为两步：1).首先把 txt 文档里面的表达矩阵读入 R 里面转为 gct 格式；2).对 gct 格式的 input 表达矩阵使用 estimateScore 得到计算好的 3个 score 值。

3.输出每个样品的打分

最后，读取得到的基因免疫评分，对其进行格式上的微调。

我们可以看到，最后的输出结果中，行名为患者的 TCGA id 号，列名为计算得到的四种评分，分别为基质评分（StromalScore），免疫评分（ImmuneScore），ESTIMATE 评分（ESTIMATEScore），以及肿瘤纯度（TumorPurity），后面，就可以基于相应的评分，对组织进行后续的分析。不过注意的是，虽然，评分的计算过程中是使用 TPM 数据，但是不代表以评分高低分组后的差异分析也是使用 TPM 数据，原先该用什么数据做什么分析的，还是用什么数据。到此，第一个评分的计算结果就得到了