第 64 课：cellMiner 数据库的使用

主讲老师第六十四课：cellMiner 数据库的使用

CellMiner 数据库（cellMiner.zip）主要是通过国家癌症研究所癌症研究中心(NCI)所列出的 60 种癌细胞为基础而建立的，NCI-60 细胞系是目前使用最广泛的用于抗癌药物测试的癌细胞样本群，大家可以通过它查询到 NCI-60细胞系中已确认的22379个基因，以及20503个已分析的化合物的数据, 包括部分已获美国食品和药物监督局批准的药物. 下面，我们来看下相关数据

的下载和药物敏感性分析过程。

1.CellMiner 数据库的使用

1.进入 CellMiner 数据库主页（https://discover.nci.nih.gov/cellminer/home.do）

2.点击 Download Data Sets，进入数据下载界面，在下载界面中，可以看到两个不同的板块，分别是原

始数据 Raw Data Set 和经过处理后的数据 Processed Data Set，在此，我们直接选择经过处理后的数据 Processed Data Set。

3.在此，勾选 RNA 表达数据（RNA: RNA-seq）和药物数据（Compound activity: DTP NCI-60）

4.点击按钮 Get Processed Set，进入下载界面

5.下载完成后，将其放到工作目录下解压，并分别提取其中的 Excel 文件

接下来，我们需要对下载得到两个数据文件进行整理，以用于后续的药物敏感性评估

2.药物数据的准备

2.1 读取药物相关数据

首先，使用 readxl 包中的 read_excel() 函数，读取药物相关的数据，由于前 7 行为注释信息，因此使用参数 skip 进行跳过前 7 行。

同时，将第一行作为列名，并去除末尾两列其余信息

2.2 筛选药物标准

使用 table() 函数查看药物标准，结果显示，其中 75 种经过了临床试验，188 种经过 FDA批准。

保留经过临床试验和 FDA 批准的药物结果，得到 263 个药物结果，并将其保存为 txt文件用于后续分析

3.基因表达数据的准备

同样的，读取表达数据，并对其进行整理和保存，用于后续的分析

4.药物敏感性分析

4.1 引用包

首先，加载分析和后续绘图使用的 R 包

4.2 读取药物输入文件

首先，读取前面保存的药物敏感性结果，设置相应的行名，并将其转换为矩阵形式考虑到药物敏感性数据中存在部分 NA 缺失值，通过 impute.knn() 函数，使用最近邻平均来估算缺少的表达值，进而补齐药物数据。

4.3 读取表达输入文件

4.4 提取特定基因表达

将提前准备的目标基因列表进行读取。

4.5 药物敏感性计算

使用 for 循环，分别计算基因表达与药物之间的 Pearson 相关系数，最后，将相关性分析结果进行输出保存。

4.6 可视化

提取分析结果中最显著的前 16 个结果，使用 ggplot()函数结合 for 循环，逐个绘制散点图，从而进行可视化展示将绘制得到的结果按 4x4 的分布进行排列组合，输出结果

这样，目标基因与相关药物之间的敏感性分析就分析完成了。