scRNA-seq 拷贝数变异专题

1、定义拷贝数变异（Copy number alterations，以下简称CNA）是一种重要的基因组变异，在癌症的发生和发展过程中起着至关重要的作用。确定肿瘤细胞中CNA的特征对早期肿瘤检测、划分肿瘤异质性、了解肿瘤进展模式和揭示耐药机制具有重要意义。随着单细胞RNA测序（scRNA-seq）的蓬勃发展，研究人员开发出了多种计算方法来从scRNA-seq研究中推断CNA。

目前从scRNA-seq数据中推断CNA的计算方法大致可分为两类。一类是基于表达的，即直接从基因表达推断CNA。这类工具包括inferCNV、copykat和SCEVAN。这些工具的工作原理是，CN扩增（AMPs）或缺失（DELs）将分别导致受影响基因组区域内基因的上调或下调。InferCNV利用基因窗口的校正移动平均数；copykat采用综合贝叶斯分割方法；SCEVAN采用多通道分割算法。

第二类将基因表达与等位基因信息相结合，相关工具有Numbat和CaSpER等。2、主要研究成果这里我们参考了一篇2025年发表Briefings in Bioinformatics杂志上面的文献，文献的标题为“Benchmarking copy number aberrations inference tools usingle-cell multi-omics datasets”。

作者对五种拷贝数变异（CNA）推断工具进行了基准测试。这些工具的选择基于两个主要标准：（i）需单细胞RNA测序（scRNA-Seq）数据作为输入；（ii）在该领域内被公认为流行工具。这些工具大致可分为两类：仅需表达矩阵的（inferCNV、CopyKAT和SCEVAN），以及需要表达矩阵和等位基因频率数据的（Numbat和CaSpER）。其性能通过肿瘤细胞中的三个常见应用进行评估：（i）肿瘤细胞与正常细胞的分类；

（ii）拷贝数变异事件的准确性；（iii）肿瘤亚克隆推断。2.1 区分肿瘤细胞与正常细胞为了根据推断出的拷贝数变异（CNA）谱区分肿瘤细胞和正常细胞，作者将上述工具应用于包括8例结直肠癌（CRC）、1例神经内分泌肿瘤和1例胶质瘤在内的实体瘤。所有细胞的细胞类型注释均来自相应的已发表研究。仅保留结直肠癌中的上皮细胞、神经内分泌肿瘤中的内分泌细胞以及胶质瘤中的神经胶质细胞用于肿瘤细胞与正常细胞的分类。

总体而言，Numbat在区分肿瘤细胞与正常细胞方面表现最佳。在仅使用表达矩阵的三个工具中，CopyKAT的整体性能最佳。SCEVAN在肿瘤细胞频率较低（<40%）的样本中表现不佳（图2B）。InferCNV除在CRC02中表现不可靠（其中大部分细胞为肿瘤细胞，约88%）外，其余情况均可靠。CaSpER也犯了同样的错误。

为解决这一问题，作者研究了在肿瘤与正常细胞比例失衡的情况下，纳入肿瘤微环境（TME）细胞（如免疫细胞、内皮细胞和成纤维细胞）是否能提高inferCNV、CopyKAT和SCEVAN的性能（图2E）。结果表明，纳入TME细胞显著提高了SCEVAN对肿瘤细胞预测的准确性（图2E）。这种改进是合理的，因为SCEVAN算法整合了来自公共数据库的一系列基因特征，包括来自TME的细胞（如基质细胞、免疫细胞），以识别高可信度的正常细胞。

因此，添加TME细胞增强了SCEVAN区分肿瘤细胞和正常细胞的能力。尽管在inferCNV中未观察到整体的改进，但某些肿瘤细胞数量较多的样本，如CRC02（88%）、CRC22（91%）和CRC03（67%），其F1分数却有了显著提升，分别从0、0.5和0.55上升至1、0.9和0.99（图2E）。

为了系统地探究肿瘤纯度对拷贝数变异（CNA）推断准确性的影响，作者生成了一个涵盖广泛肿瘤/正常细胞比例（从1:100到100:1）的合成数据集，以使用最大的胶质瘤数据集来考察其对性能的影响（图2H）。即使在肿瘤/正常细胞比例极低的极端情况下，Numbat也始终优于其他工具（图2I）。

为了探究测序深度对拷贝数变异（CNA）推断准确性的影响，作者对几个样本进行了下采样，使其测序深度的中位数分别降至约10,000、3,000和1,000个UMI/细胞。随着测序深度的降低，所有工具的整体肿瘤-正常细胞分类F1分数均有所下降，尤其是在Numbat中（图2J）。然而，CopyKAT的性能基本不受影响。

备注：F1 score是一种用于评估分类模型性能的指标，它综合了精确率（Precision）和召回率（Recall）这两个指标，能够更全面地反映模型的分类效果。其中，精确率是指预测为正例的样本中实际为正例的比例，召回率是指实际为正例的样本中被正确预测为正例的比例。F1 score的取值范围在0到1之间。F1 score越高，说明模型的性能越好。

当F1 score为1时，表示模型的精确率和召回率都达到了100%，即所有的预测结果都是正确的，这是一种理想的完美状态；当F1 score为0时，则表示模型的预测结果完全错误，没有一个正例被正确预测出来。2.2 推断的拷贝数变异（CNA）谱的准确性为了评估推断出的拷贝数变异（CNA）谱的准确性，确保每个软件工具的最佳性能至关重要。

从单细胞RNA测序（scRNA-seq）数据推断CNA的过程中，正常参考细胞的指定对最终的CNA结果有显著影响。Numbat和CaSpER软件需要输入参考细胞，最好来自相同的生物学和技术条件。对于InferCNV、CopyKAT和SCEVAN软件，使用参考细胞是可选的。

在9个案例中的8个案例中，指定了参考细胞之后，从单细胞DNA测序（scDNA-Seq）得出的拷贝数变异（CNA）图谱与从单细胞RNA测序（scRNA-seq）推断出的CNA图谱之间的相似性显著提高（图3B-C）。相比之下，CopyKAT和SCEVAN在其算法中已经采用了类似两步走的方法，即先预测正常参考细胞，然后将其作为基线来校正肿瘤细胞的CNA。

Numbat和CaSpER生成了整数倍的拷贝数（CN）图谱，这些图谱更易于解读且看起来更清晰，而inferCNV、CopyKAT和SCEVAN输出的是连续的CN。在所有情况下，没有一种工具在单细胞RNA测序（scRNA-Seq）推断图谱与单细胞DNA测序（scDNA-Seq）图谱的一致性方面始终优于其他工具（图3D-E）。在肿瘤细胞和正常细胞数量都足够的情况下，例如胶质瘤、CRC13、CRC11和CRC12，所有工具的表现都很好。

在肿瘤细胞和正常细胞数量不平衡的样本中，例如CRC02、CRC22和CRC15，这五种工具预测的拷贝数变异（CNAs）图谱的整体准确性大幅下降。作者评估了在血液系统癌症ALL中的表现。但由于原始FASTQ数据不可用，作者只能评估inferCNV、CopyKAT和SCEVAN的性能。其中，CopyKAT表现最佳。此外，作者还评估了这些工具检测断点的能力。

除inferCNV外，其他四个工具均能在单细胞水平上输出拷贝数变异（CNV）片段（图3F）。这些工具在每个细胞中检测到的片段数量存在较大差异。Numbat和CaSpER检测到的片段数量为数十到数百个，而CopyKAT和SCEVAN则检测到数千个片段，这显然超出了癌症中预期的染色体断点数量。在单细胞水平上评估断点检测的技术难度仍然很大。因此，作者重点评估了inferCNV、Numbat和SCEVAN在肿瘤克隆断点检测方面的准确性。

结果显示，SCEVAN在F1分数和灵敏度方面总体表现最佳，而inferCNV在精度方面表现更优。与SCEVAN和来自DNA-Seq的真实情况相比，inferCNV和Numbat检测到的断点要少得多。更具体地说，inferCNV和Numbat较低的F1分数断点可能是由于在识别复杂拷贝数变异（CNAs）时分辨率降低所致。

例如，在chr10上，SCEVAN检测到两个断点，而Numbat和inferCNV将这两个相邻的缺失合并为一个缺失（图3H）。这也可能是由于断点检测遗漏造成的，例如在chr14上（图3I）。最后，在Numbat中偶尔也会观察到假阳性CNAs调用（图3J）。由于整合了AB等位基因分析，Numbat和CaSpER均能够检测到杂合性缺失（LOH）。

由于CaSpER在恶性细胞和非恶性细胞中均做出了过多明显错误的LOH调用，因此未对其LOH调用性能进行进一步评估。Numbat在多个样本中总共检测到17个LOH事件。为了评估其准确性，作者使用配对的单细胞DNA测序（scDNA-seq）数据对这些LOH事件的实际拷贝数变异（CNV）状态进行了分析。分析表明，Numbat检测到的大多数LOH事件（17个中的14个，约82%）实际上是CNV扩增（AMP）或缺失（DEL）（图3K）。

例如，在CRC13样本中，Numbat将chr8q识别为LOH事件；然而，对DNA数据的CNA图谱分析显示，chr8q实际上经历了CNV扩增（图3L）。Numbat的这一错误LOH调用是由于8q区域A等位基因显著增加，而B等位基因保持不变，正如DNAseq分析所观察到的（图3M）。但Numbat在识别LOH方面表现出高灵敏度。

2.3 亚克隆结构推断准确性的评估人类癌症表现出广泛的瘤内异质性，通过不同亚克隆中不断出现的突变和拷贝数变异（CNAs）持续进化，这会影响其表型并赋予适应性优势。单细胞拷贝数（CN）谱可以推断出亚克隆以及肿瘤的进化史。在胶质瘤中，先前的研究已经确定了亚克隆结构，只有Numbat正确地将较小的C1亚克隆且具有较低的拷贝数变异负荷的细胞归类为肿瘤细胞（图4A-C）。

对于结直肠癌（CRC）病例，作者通过平均轮廓系数来确定最优的k值，估计出的结直肠癌样本的最优克隆数为2。如果通过不同方法预测出的亚克隆数大于2，则根据其拷贝数变异（CNV）谱的相似性合并这些簇。经人工检查，两个样本（CRC03和CRC11）显示出两个较大的亚克隆。在CRC03的情况下，只有inferCNV出现了类似的肿瘤识别错误（图4D）。inferCNV错误地将肿瘤C1亚克隆识别为正常细胞，从而未能正确检测出两个亚克隆。

但是，将肿瘤微环境（TME）细胞添加到inferCNV中纠正了错误分类，并改善了亚克隆结构的推断。其他四个工具在亚克隆分配方面表现良好（图4E-F），尽管单细胞DNA测序（scDNA-Seq）获得的亚克隆CNAs谱并未完全重现。在CRC11中，所有工具都正确地对肿瘤细胞进行了分类，所有工具都取得了良好的性能（所有工具的ARI值均大于0.8，图4G-I）。

另外，在一个极端案例中，CRC12中定义的一个亚克隆仅由一个单细胞组成，而inferCNV和SCEVAN正确检测到了这种单细胞亚克隆。因此，在肿瘤细胞分类正确的前提下，这五种工具在描绘亚克隆结构方面均表现出色。2.4 计算效率为了评估各种方法的计算速度，作者追踪了所用的CPU时间。结果表明，在运行时间方面，CopyKAT和SCEVAN表现最佳。InferCNV和CaSpER的计算速度中等，而Numbat则需要最多的CPU时间。

此外，随着数据集规模的增大，运行时间略有增加。不过，对于所测试的所有工具，运行时间都在可接受范围内。从BAM文件计算B等位基因频率通常是耗时最长且资源消耗最大的步骤。根据作者的测试，配备普通配置的笔记本电脑能够轻松处理所有五种工具的少于1000个细胞的数据集。然而，对于包含数千个细胞的数据集，建议在服务器或高性能计算平台上进行分析，尤其是对于Numbat和InferCNV。

3、小结总体而言，以上工具都能在一定程度上区分肿瘤细胞和正常细胞，并准确推断出拷贝数变异（CNA）的特征。在这些方法中，Numbat在各种评估标准中表现最佳。对于仅提供表达矩阵的情况，建议优先使用CopyKAT方法。基于基因表达的方法更容易受到肿瘤纯度的影响。在没有参考设置的情况下，inferCNV依靠输入的细胞群体来生成背景。当肿瘤纯度较高时，实际的拷贝数变异（CNA）信号可能会被错误地视为背景并被移除。

相反，当肿瘤纯度较低时，SCEVAN倾向于错误地将非恶性细胞归类为恶性细胞。对于这两种情况，将肿瘤微环境（TME）细胞纳入分析都能明显提高性能。整合B等位基因信息使Numbat和CaSpER能够识别出LOH事件，这些事件在癌症进展中起着关键作用。Numbat在检测LOH方面具有较高的灵敏度，但特异性较低。因此，用户在解读Numbat的杂合性丧失结果时应谨慎。建议使用独立工具确认这些杂合性丧失区域不存在拷贝数改变。

另一个观察结果是，拷贝数变异（CNAs）的复杂性和负担对每种方法的影响是相同的。不同工具在实体瘤上的表现通常优于在血液系统肿瘤或细胞系上的表现。这可能是由于血液系统肿瘤中的拷贝数变异较少且染色体拷贝数变异的异质性较低。鉴于没有一种工具能在所有任务中都表现出色，特殊情况下我们也可以结合两种及以上工具进行联合分析。