第 64 课

cellMiner 数据库的使用

课程讲义导读 · 聚焦本课核心概念、分析流程与复现要点

说明:本页适合用于快速回顾本课重点、关键步骤与常用示例。

主讲老师第六十四课:cellMiner 数据库的使用

CellMiner 数据库(cellMiner.zip)主要是通过国家癌症研究所癌症研究中心(NCI)所列出的 60 种癌细胞为基础而建立的,NCI-60 细胞系是目前使用最广泛 的用于抗癌药物测试的癌细胞样本群,大家可以通过它查询到 NCI-60细胞系中已确认的22379个基因,以及20503个已分析的化合物的数据, 包括部分已获美国食品和药物监督局批准的药物. 下面,我们来看下相关数据

的下载和药物敏感性分析过程。

1.CellMiner 数据库的使用

1.进入 CellMiner 数据库主页(https://discover.nci.nih.gov/cellminer/home.do)

2.点击 Download Data Sets,进入数据下载界面,在下载界面中,可以看到两个不同的板块,分别是原

始数据 Raw Data Set 和经过处理后的数据 Processed Data Set,在此,我们直接选择经过处理后的数据 Processed Data Set。

3.在此,勾选 RNA 表达数据(RNA: RNA-seq)和药物数据(Compound activity: DTP NCI-60)

4.点击按钮 Get Processed Set,进入下载界面

5.下载完成后,将其放到工作目录下解压,并分别提取其中的 Excel 文件

接下来,我们需要对下载得到两个数据文件进行整理,以用于后续的药物敏感性评估

2.药物数据的准备

2.1 读取药物相关数据

首先,使用 readxl 包中的 read_excel() 函数,读取药物相关的数据,由于前 7 行为注释信息,因此使用参数 skip 进行跳过前 7 行。

同时,将第一行作为列名,并去除末尾两列其余信息

2.2 筛选药物标准

使用 table() 函数查看药物标准,结果显示,其中 75 种经过了临床试验,188 种经过 FDA批准。

保留经过临床试验和 FDA 批准的药物结果,得到 263 个药物结果,并将其保存为 txt文件用于后续分析

3.基因表达数据的准备

同样的,读取表达数据,并对其进行整理和保存,用于后续的分析

4.药物敏感性分析

4.1 引用包

首先,加载分析和后续绘图使用的 R 包

4.2 读取药物输入文件

首先,读取前面保存的药物敏感性结果,设置相应的行名,并将其转换为矩阵形式考虑到药物敏感性数据中存在部分 NA 缺失值,通过 impute.knn() 函数,使用最近邻平均来估算缺少的表达值,进而补齐药物数据。

4.3 读取表达输入文件

4.4 提取特定基因表达

将提前准备的目标基因列表进行读取。

4.5 药物敏感性计算

使用 for 循环,分别计算基因表达与药物之间的 Pearson 相关系数,最后,将相关性分析结果进行输出保存。

4.6 可视化

提取分析结果中最显著的前 16 个结果,使用 ggplot()函数结合 for 循环,逐个绘制散点图,从而进行可视化展示将绘制得到的结果按 4x4 的分布进行排列组合,输出结果

这样,目标基因与相关药物之间的敏感性分析就分析完成了。

← 返回批次1总导航