主讲老师第三十五课:转录调控网络
首先来看一下概念,所谓转录调控,是指通过改变转录速率从而改变基因表达的水平,经过转录调控过程,可以控制转录何时发生以及产生多少 RNA,那么,我们来看看在生信分析中,转录调控网络(TF_plot.zip)是什么形式的。
1.文献解析
在这里,我找了一篇今年 11 月 9 号发表在 Cancer Cell International 杂志上的文章,题为“Identification of an immune gene signature for predicting the prognosis of patients with uterinecorpus endometrial carcinoma.”。
接下来,我们来看看在这篇文章中,作者是如何进行转录调控分析的。
根据实验方法部分的描述,作者使用 limma 包进行了差异分析,根据 P<0.05 和|logFC|>=1 的标准,得到了显著差异表达基因(Differential expression genes, DEGs)。接着,分别从 IMMPORT 数据库和 Cistrome 数据库中获取了免疫基因和转录因子列表。将两个基因列表分别与 DEGs 取交集,得到各自的数据集。随后,作者检测了差异转录因子和差异免疫相关基因表达之间的共表达关系,设置|相关系数|>0.4 和 P <0.001 的标准,得到共表达的基因信息,最后使用 Cytoscape(version 3.7.1)将共表达网络信息可视化。
看到这里,我们可以发现,在生信分析中,所谓的转录调控网络实际上是基于转录因子和基因之间的共表达关系。通过两个基因之间的表达相关性,来预测可能存在正调控或者负调控关系的转录因子和基因之间的关系。下面,我们一起来看一下如何绘制转录调控网络。
2.差异转录因子的表达
2.1 差异基因提取
根据实验方法,我们首先需要进行差异表达分析,获得 DEGs 列表,这里,我们已经完成了差异表达分析,并且,根据 P<0.05 和|logFC|>1.5 的标准,得到了显著差异表达基因,直接使用 load()函数将差
异分析结果和基因表达矩阵读取进来
在.RData 文件中,一共包含两个数据框,可以看到差异基因列表中一共包含了 760 个DEGs。查看一下基因的变化结果。
可以看到,在差异基因中,其中 343 个基因的表达显著上调,417 个基因显著下调。接着,根据差异基因情况,提取差异基因的 TPM 值,并将数据框的行名从 Ensemble id 转换 成 Gene symbol查看一下 tpms 文件的前 3 行前 3 列。
这样,差异基因的表达文件就准备好了,接下来,我们需要提取其中的转录因子。
2.2 提取差异转录因子表达
首 先 , 我 们 需 要 去 Cistrome 数据库获取转录因子信息。 Cistrome 数 据 库(http://www.cistrome.org/)是一个较为全面且公开的人类和小鼠 ChIP-seq 及开放染色质信息的数据库。从数量上来看,Cistrome 数据库可以说是收录 chip 类型最多的数据库之一。
此外,在该数据库中,基于对对 TCGA 表达图谱和公共 ChIP-seq 图谱的综合分析,提供了肿瘤中预测转录因子(TF)靶标和增强子谱的全面资源,点击 Visit site 进入 Cistrome Cancer 板块内容中。
进入 Cistrome Cancer 板块后,首先可以看到一段介绍的视频,随后是两大板块,分别是 CancerTranscription Factor Targets 和 Cancer Enhancer Prediction。在此,我们选择第一个转录因子板块,
点击进入其中:
在肿瘤转录因子板块中,我们可以看到,左边是肿瘤相关的转录因子列表,右边是相应的一些可视化分析内容我们直接将转录因子名称进行保存即可,一共得到 318 个肿瘤相关转录因子。当然了,这份文件(TF.txt)也已经下载好给大家了。接下来,将转录因子列表读取到 R 中,获取差异表达的转录因子信息通过 intersect()函数,最终得到 9 个差异表达的转录因子信息,分别是 E2F1,EGR1,EPO,HOXC11,HOXC9,KAT2B,MAF,SOX17,以及 SOX9 基因,进而,从 tpms 中提取这 9 个基因的表达情况
3.相关性检验
3.1 设置相关性阈值
在这里,我们将相关性分析的阈值设定为|cor|>0.5 和 P<0.001。
3.2 相关性分析
通过设置循环函数,分别计算转录因子和其他基因的相关性,根据相关性系数 cor>0.5和 P<0.001,设置为正相关性,cor< -0.5 和 P<0.001,设置为负相关性。
最终,一共得到了 54 条相互调控关系网络。然后,我们将相关性分析结果输出到工作目录中
3.3 注释文件的准备
另外,我们还需要准备一份注释文件,作为 Cytoscape 软件的输入文件,告诉系统哪些是转录因子
4.转录调控网络的制作
下面,我们将相关性结果导入 Cytoscape 软件(version 3.8.0)中,进行可视化展示(1). 打 开 Cytoscape 软件, 选 择 File---Import---Network from File , 选 择 文 件“TFs.corResult.txt”;(2).在 TF 和 Gene 处选择对应的图标,点击“OK”;(3).可以看到,在图中展示了初步的转录调控网络;(4). 接 下 来 , 导 入 注 释 文 件 , 选 择 File---Import---Table from File , 选 择 文 件“TFs.corResult.txt(5).选择 Style 栏目在 Fill Color 中,Column 选择 group,Mapping Type 选择 Discrete Mapping,分别对TF 和 Gene 赋予红色和蓝色。在 Shape 中,Column 选择 group,Mapping Type 选择 Discrete Mapping,分别对TF 和 Gene 赋予三角形和长方形。
(6).保存图片:选择 File---Export---Network to Image,点击 ok 即可。
这样,一张转录调控网络就制作完成了~里面还有很多参数,可以大家自行点点探索,包括排列顺序,图形的大小等等,都可以调节。