主讲老师第四十课:氨基酸突变的 Lollipop 图
虽然 TMB 主要代表样品中整体的突变水平,但是其无法具体解释某个特定基因的突变发生在哪个重要的结构域,或者突变产生的特定影响,因此,我们需要针对特定基因,展示某个癌症类型里某个基因的突变位点,进而推测其中某位点的突变会产生的蛋白质功能。在此,我们使用 trackViewer 包进行氨基酸位点变异位置精美图谱的展示。下面,我们一起来看一下如何绘制基因突变后氨基酸位点的 Lollipop 图。
1.TCGA 突变数据的下载
首先,我们来演示一下如何使用 TCGAbiolinks 下载 SNP 数据。
相比其他数据的下载,其整个过程十分简洁,使用 GDCquery_Maf()函数即可完成下载。与之前的一样,在此我们还是选择 varscan2 类型的数据进行下载,当然,参数 pipelines 也可以设置成其他几种数据处理方法,下载完成后,将其保存成.rda 文件,便于后续使用读取提取突变数据中基因名为 TP53 的对应突变数据。
结果显示,其中存在 291 个 TP53 突变信息。
2.读取氨基酸突变数据
读取前面保存的突变数据,通过 is.na() 函数分析其中基因突变但未引起氨基酸位点改变的样品信息,结合 ! 取反,最终得到基因突变且引起氨基酸位点发生改变的样品,一共 273个突变信息。
3.提取氨基酸位点信息
3.1 读取参考结构域信息
接着,根据 maftool 包里面提供的蛋白质结构域数据,获取其中对应的 TP53 基因的结构域结果显示,在 TP53 基因中,共存在 3 种不同的结构域类型,分别是 P53 transactivation motif ,P53 DNA-binding domain ,以及 P53 tetramerisation motif
3.2 分析氨基酸位置
根据参考结构域,结合突变信息中提供的氨基酸突变位点,我们需要将两者结合起来通过正则表达式,将一致的内容进行提取匹配。
最后,根据突变位置的大小顺序,对突变结果进行排序整理。
3.3 统计不同氨基酸突变类型的突变频率
由于多个样品可能出现同一氨基酸位点的突变情况,因此我们需要对其进行去重复,合并,统计使用 table() 函数对突变频率进行统计描述。
结果显示,其中同一位点突变的最多存在 7 个样品
4.绘制 Lollipop 图
输入数据准备完成后,我们进行 Lollipop 图的绘制。
4.1 R 包准备与读取
在 此 , 我 们 使 用 trackViewer 包 来 绘 制 氨 基 酸 位 点 的 Lollipop 图 , 同 时 使 用RColorBrewer 包来获取图形对应的颜色。
4.2 构建基因特征
对基因特征的起始位置,高度,以及颜色进行设置
4.3 构建样品特征
根据样品信息,分别设置标签对应的内容,角度,颜色等等信息
4.4 绘图
将前面构建好的样品特征和突变基因特征作为参数输入 lolliplot()函数中。
因为整个绘制是完全自己进行数据的准备和清洗,涉及的部分代码难度稍微高了一些,大家在绘制过程中,准备好下载的突变数据,以及基因名称,其他相关参数基本不用修改,可以完成整个图形的绘制,而且,绘制得到的结果比 maftools 里面的内置函数结果要好看很多。