主讲老师第六十三课:CNV 变化的 GISTIC_2.0 分析在基因组水平,除了单核苷酸多态性(single nucleotide polymorphism,SNP)水平的改变,拷贝数(Copy number variation, CNV)的变化(GISTIC.zip)同样是一个十分重要的改变因素。拷贝数变异,是由基因组发生重排而导致的,一般指长度为 1 kb 以上的基因组大片段的拷贝数增加或者减少,主要表现为亚显微水平的缺失和重复。GISTIC2 分析,主要是用于检测一组样品中显着扩增或缺失的基因组区域,即通过分析每个样本的 CNV 检测结果,计算这一批样本中显著扩增和缺失的区域信息,一般而言,这个分析在癌症基因组 CNV 分析中十分常见也十分必要的内容。下面,我们一起来看下如何进行基于 CNV 变化的GISTIC_2.0 分析,包括输入文件准备和结果的可视化展示。
1.segment file 数据下载和处理
1.1 从 TCGA 下载数据
这里,使用 TCGAbiolinks 包进行 TCGA 数据库中 CNV 数据的下载。
首先,通过 GDCquery() 函数查询下载信息。
通过 GDCdownload() 函数下载相应的 CNV 数据。
使用 GDCprepare() 函数对下载得到的数据进行整合,并保存为.rda 文件。
1.2 数据处理
数据下载完成后,使用 load() 函数读取保存的 CNV 数据,并赋值给变量 tumorCNV。
随后,提取第 2 至 7 列的内容,包括样品名,染色体位置等信息,并对其顺序进行重新排列,将样品名字放到第一列。
1.3 提取肿瘤样本
接着,我们需要将其中的肿瘤样品进行提取根据 TCGA 命名方式,其中包括肿瘤样品 93488 个结果。
最后,提取 CNV 数据中的肿瘤样品结果,并将其进行保存这样,第一个输入文件就准备好了。
2.marker file 数据下载和处理
2.1 从 TCGA 下载数据
接下来,我们需要准备第二份输入文件,即注释文件。
1). 进 入 TCGA 数据库中注释文件的界面(https://gdc.cancer.gov/about-data/gdc-data-processing/gdc-reference-files)2).往下查找,可以看到 SNP6 GRCh38 Remapped Probeset File for Copy Number Variation Analysis内 容 , 其 中 包 含 了 CNV数 据 的 注 释 文 件 , 点 击“snp6.na35.remap.hg38.subset.txt.gz”进行下载
同时,我们可以看到下方的一段注意内容:
即:如果您使用 CNV 片段数据进行 GISTIC 分析,请仅使用 freqcnv = FALSE 保留探针集。因此,下载得到的注释文件需要进一步进行整理。
2.2 提取 freqcnv=FALSE 数据
首先,使用 data.table 包的 fread() 函数读取注释文件。
使用 str() 函数查看一下注释文件 Marer 中包含的相关内容。
可以看到,其中包含了探针 id,染色体的相关信息等内容。
根据提示的内容,判断 freqcnv 列中为 FALSE 的内容。
最后,提取 freqcnv 为 FALSE 的行,对列名进行重新命名将结果进行保存,作为第二个输入文件使用
3.GenePattern GISTIC_2.0 在线分析
接下来,我们进行 GISTIC_2.0 分析。关于 GISTIC_2.0 分析,存在在线分析和离线版两种,其中离线版需要在 Linux 系统中进行操作,这里,我们介绍一下在线版 GISTIC_2.0 分析方法。
1).首先,进入 GenePattern 网站(https://cloud.genepattern.org/gp/pages/index.jsf)对于首次进入 GenePattern 网站的话,使用邮箱进行注册即可。
2).在模块 Modules 下,点击 Browse Modules选择 All Modules,进入模块选择板块。
3).查找 GISTIC_2.0 分析模块,点击选中,此时,我们就进入了 GISTIC_2.0 分析模块中4). 根 据 要 求 , 对 于 TCGA 数 据 分 析 , 在 refgene.file 中选中“Human_Hg38.UCSC.add_miR.160920.refgene.mat”内容,在 seg file 中选中在第一步中准备的输入文件,在 markers file 中选中在第二步中准备的输入文件,其余参数选中默认即可,点击 Run5).随后,进行运行阶段,整个过程大约需要耗时 30min 左右,勾选 Email Reminder,在运行完成后可以收到相应的邮件6).待运行完成后,选择下载文件,即可获得相应的输出文件
4.maftools 可视化 GISTIC 结果
将 GISTIC_2.0 分析得到的结果文件保存到工作目录下,接下来,我们对结果进行可视化展示。这里,我
们使用 maftools 包进行可视化分析
根据运行结果,依次将结果赋值给相应的参数,以构建 GISTIC 输入文件接下来,对结果进行可视化展示。
其中红色表示拷贝数增加,而蓝色表示拷贝数降低,并对其中几个较为显著的基因名字信息进行了标注这里还有另外一种可视化方法
这样,整个的分析过程就基本完成了