第 2/8 章

三、绪论

1、定义 拟时序分析(Pseudotime Analysis) 是一种在单细胞转录组学中常用的方法,它通过对细胞在特定生物过程中的转录组数据进行排序,推断其发展或变化的时间顺序。尽管单细胞数据通常是静态的(在一个时间点采集),拟时序分析通过基因表达的变化模式来重建细胞的发育轨迹或动态过程,从而模拟细胞随时间推移的变化,揭示细胞在不同状态下的演变路径和关键转折点。

2、拟时序分析作用 推断细胞的发育阶段:通过分析基因表达变化,将处于不同分化阶段的细胞排序,模拟出一个拟时间轴。识别关键的基因调控事件:通过比较不同拟时间阶段的细胞,识别在特定转折点上调或下调的基因,找出与细胞分化或功能转换相关的关键分子。推断细胞状态转换:分析细胞从一种状态向另一种状态过渡的动态变化,尤其在干细胞分化或疾病模型中应用广泛。

3、不同拟时序软件的比较 轨迹分析的流程如下图所示,一般输入文件为原始的基因表达矩阵或者是Normalized之后的矩阵。进行一系列的分析之后得到的分析结果将会用于下游的图形可视化。输出的轨迹类型可能会包括了环形轨迹、线形轨迹、分支型轨迹和多分支型轨迹等多种类型。其中较为常见的为分支型的轨迹分布。主要研究成果如下:3.1 总体评价结果 下图展示了每一种拟时序方法可以实现的拓扑结构。

图中彩色为对应方法可以实现的拓扑结构,灰色的为不能实现的拓扑结构。从中可以发现测试的大部分软件都可以实现线性拟时序的拓扑结构的预测和分析。而分支型、多分支型和树状的拓扑结构从上往下对应的拟时序软件可以实现的拓扑结构依次减少。另外对于部分相连的拓扑结构和不相连的拓扑只有以PAGA为代表的三种软件可以实现。整体来看得分最高的为slingshot、PAGA。

另外我们今天要给大家介绍的以monocle为代表的拟时序分析软件也可以较好地满足大家绝大多数场景下拟时序分析的需求。热图展示了各个拟时序软件应用于不同的数据集、不同类型的拓扑轨迹时的准确性、多次运行时结果的稳定性、数据量增加时所需计算时间的变化的综合评分。不同的指标可能会彼此不一致,Monocle和PAGA在拓扑分数上得分更高,检测到的拓扑倾向于更复杂的拓扑,在具有树状或更复杂轨迹的数据集上得分更高。

而其他方法例如Slingshot,通常在包含更简单拓扑的数据集上表现更好。3.2 准确性 测试数据由110个真实数据集和229个合成数据集两部分构成。110个真实的数据集来自各种单细胞技术,各种生物体和动态过程,并包含几种类型的拓扑轨迹。

作者把做测试用的真实数据集做了两个分类:Gold standard(参考轨迹是通过细胞分选或细胞混合而来,不是从表达数据本身中提取)和Silver standard(gold standard之外的数据集)。通过评估已知轨迹和预测轨迹之间的相似性得到软件的总体评分,准确性排在前三的为slingshot、PAGA和SCORPIUS。另外作者也发现不同方法性能在各个数据集之间的表现变化很大,这表明没有一种万金油的方法适用于每个数据集。

3.3 可扩展性 随着高通量单细胞技术的普及,我们在进行拟时序分析时经常需要处理几万,也许在未来有处理几十万细胞的需求,所以作者评估了目前的拟时序方法在处理细胞数、特征数(gene)性能的扩展。随着细胞数目的增加,大多数方法无法在一小时内在具有10k个细胞和几千个特征(gene)的数据集上完成。运行时间进一步增加,只有少数几个方法(如PAGA、Monocle)可以在1天内处理完数万细胞的分析。

3.4 稳定性 拟时序方法不仅要能够在合理的时间范围内推断出准确的模型,而且要在给定非常相似的输入数据时生成相似的模型。为了测试每种方法的稳定性,作者对10个数据集的子集(95%细胞,95%特征)测试了每种方法,并评估每对模型之间的平均相似性和轨迹的准确性。Slingshot产生的模型稳定性最高,Monocle等方法的稳定性次之,排名最后的四个方法稳定性较差。

3.5 软件、文档和手稿方面的可用性 最后,作者对每种方法的软件包装、文档、自动代码测试以及发布的期刊做了评估。作者发现大多数方法都满足基本标准,例如教程的可用性和基本代码质量标准。同时,新方法的质量得分比旧方法也会更好一些,更加推荐大家使用。

← 上一章 下一章 →