第 39 课

SNP 数据及其展示方法

课程讲义导读 · 聚焦本课核心概念、分析流程与复现要点

说明:本页适合用于快速回顾本课重点、关键步骤与常用示例。

主讲老师第三十九课:SNP 数据及其展示方法

随着肿瘤免疫治疗和测序技术的发展,肿瘤突变负荷(Tumor mutation burden,TMB),这个最近研究火热的话题,越来越受到大家的关注。当然,在生信研究中,突变与肿瘤的相关研究也随之兴起,接下来,我们将为大家展示如何使用“maftools”包(maftools.zip)对患者的突变情况进行可视化首先,来看一篇范文文献,题为“Exploration of the relationships between tumor mutation burdenwith immune infiltrates in clear cell renal cell carcinoma”。首先,拆解一下文章题目,推测作者主要是探究了肾透明细胞癌(clear cell renal cell carcinoma , ccRCC)中肿瘤突变负荷与免疫浸润之间的相关性,在此结合了突变与免疫两个热点话题。接着,浏览全文,总体看看作者的分析思路,作者展示了 TCGA 数据库中 336 例 ccRCC 患者的整体突变情况,以患者的 TMB 为依据,将样本分为高 TMB 组和低 TMB 组,随后,对两组之间进行了差异分析,比较两组间的表达谱,从批量生存分析中鉴定出 9-HUB-TMB 相关基因,结合 TIMER数据库和 CIBERSORT 算法,评估了 hub-gene 与免疫细胞浸润之间的相关性,最后,作者使用多因素 Cox 回归中构建了肿瘤突变负担预后指数(TMBPI)。在这里,我们主要针对如何对肿瘤突变数据进行可视化展示首先,我们来看看材料与方法的第一部分,“Acquisition of somatic mutation data”(获取突变数据)作者从 TCGA GDC 检索得到了 ccRCC 患者,选择”Masked Somatic Mutation“作为突变数据,使用 R的“ maftools”包进行可视化过程。生信分析,数据先行,分析前,我们简单介绍一下如何在 TCGA GDC下载肿瘤患者的突变数据。

1.数据下载

我们先介绍一下网页在线如何下载突变数据,在后面的内容中,会进一步展示如何使用 TCGAbiolinks进行突变数据的下载。

1).首先,进入 TCGA GDC 网站,点击“Repository”进入数据下载界面2).根据实验方法,在 case 中选择 kidney-TCGA-TCGA-KIRC,在 file 中选择 simple nucleotidevariation-Masked Somatic Mutation。

最终得到四个使用不同方法预处理后的突变文件。点击“Add All Files to Cart”,将文件添加至购物车Cart 中并进行下载。

虽然比较简单,但是需要注意几个内容:

1). Aggregated Somatic Mutation 是包含胚胎 DNA 突变信息的文件,而我们的分析主要基于体细胞突变情况,需要去除胚胎母系 DNA 的突变,因此选择“Masked Somatic Mutation”文件2). 在 Masked Somatic Mutation 中存在 4 个不同方法预处理得到的结果,我们在分析中一般选择varscan 处理得到的结果。

2.引用 R 包

与文章作者一样,我们使用了 R 的 maftools 包,其存在于 Bioconductor 中。

3.数据的读取与查看

因为下载得到的 maf 文件的文件名很长,我们将其重新命名为 TCGA.KIRC.varscan.maf。

在此,我们主要针对突变数据,只读入组学数据,不添加临床数据当然,我们可以使用 getSampleSummary(rt)和 getGeneSummary(rt)分别查看样本信息和基因信息。

4.突变情况的可视化

4.1 summary 图

首先绘制 MAF 文件的整体结果图。

可以发现,当根据不同类别对突变类型进行分类时,错义突变占主要的部分,而且,SNP的出现频率高于插入或缺失,且 C>T 是 SNV 最常见的突变。同时,图中还展示了特定样品中的肿瘤突变负荷以及排名前 10 位的突变基因

4.2 oncoplot 图,或瀑布图

图中展示了排名前 30 位的基因在不同样本中的突变情况,各种颜色表示不同的突变类型,图例上方的小节显示了突变负荷。其中,共有 290 例(86.31%)样本存在基因突变,VNL基因在 ccRCC 患者中的突变频率最高,图的右半部分通过柱形图展示了该基因不同突变类型的占比情况

4.3 Oncostrip 图

除了整体的突变情况外,我们也可以使用 Oncostrip 函数提取其中感兴趣或者研究热点的基因,从而单

独分析特定基因的突变情况

通过 Oncostrip()函数得到了 TTN,mTOR 和 TP53 这三个基因在患者中的突变情况,其 中不同的颜色代表了不同的突变类型。

4.4 转换和颠倒

此外, titv 函数将 SNP 分类为 Transitions and Transversions,并以各种方式返回汇总表的列表,汇总的数据还可以可视化为显示六个不同转换的总体分布的 boxplot 图,以及显示每个样本中的转换分数的堆叠条形图

4.5 Lollipop 图展示氨基酸突变

棒糖图是显示蛋白质结构突变点的简单有效的方法,许多癌基因都有一个优先位点,其突变频率比其他任何位点都要高,这些点被认为是突变热点,棒棒糖图可以用来显示它们和其他突变,我们可以使用函数 lollipopPlot 绘制这样的曲线图。当然,这个函数的使用要求我们在 maf 文件中有氨基酸变化信息,因为在 TCGA 数据库中提供了氨基酸突变情况,而其他的数据集来源的数据并不一定带有氨基酸变化信息

4.6 相关性图

此时,我们得到了不同基因突变之间的相关性热图,颜色代表了相应的 P 值,并对P <0.05 和P <0.001的进行了标记。

5.计算 TMB

接下来,我们来看下当下较热的肿瘤突变负荷。TMB 的定义通常是基因组中每 1Mb 蛋白编码区的平均突变个数,所以我们可以通过 WES 全外显子测序,在去除了胚系 DNA 变异后,将所有突变情况除以人类蛋白编码区长度 MB 即可获得 TMB在文章中,通过查阅材料与方法可知,作者是基于 perl 语言来计算 TMB,当然,maftools包同样提供了 TMB 的计算方法,在此,我们来演示一下如何使用 R 的 maftools 包来计算患者的 TMB。

直接使用 tmb()函数即可完成整个计算过程,注意一下,maftools 包的 tmb()函数去去年更新后出现的,如果安装了旧版本的话,可以更新一下 R 包。当然,在 R 包的更新过程中,作者也删除了部分的旧函数,比如说词云的绘制同时可以把计算得到的结果使用 write.table()函数保存下来,用于后续分析。当然,有的小伙伴可能会问 perl 计算得到的和 R 的 maftool 包计算得到的 TMB 值之间是否存在不同,在此,我进一步计算和比较了两组 TMB 值之间的相关性。

可以看到,无论是通过 perl 或者 R 计算得到的 TMB 结果,两者存在显著的一致性,所以,大家可以放心的使用,进行后续的分析。计算完成后,接下来,我们对其中的棒棒糖图进行个性化讲解,因此直接使用 maftools 包绘制的结果相对比较朴素。

← 返回批次1总导航