技能简介
单细胞数据的第一步不一定是自己重新分析,而是先找到可靠的公开参考图谱。第 25 期适合用来快速回答“这个细胞类型在哪里表达某个基因”“这个组织里哪些细胞最值得看”。本次公开附件包采用轻量版整理方式:保留脚本、报告、图表、结果表与中小型导出文件,去除了超大的 h5ad 原始矩阵,便于直接下载和二次演示。
传统方式通常需要 1–2小时反复查库,而把流程说清楚后,AI 辅助可以在 约10分钟 内先跑出第一轮可汇报结果。
🧭 开始前先确认这 4 件事
组织和疾病范围先锁定
查询前先把器官、疾病状态和物种边界讲清楚,避免一次拉出过多无关数据。
细胞类型命名先统一
不同图谱的细胞标签命名方式不完全相同,最好先决定关注的细胞谱系。
marker 或基因清单先准备
明确想看的基因、signature 或比较对象,查询结果会更聚焦。
输出形式要先讲好
是做表达速查、生成图还是导出后继续在 scanpy/anndata 里处理,入口不同。
📦 一轮像样输出至少应交付这 4 样
图谱检索摘要
记录数据来源、组织、疾病、样本量和目标细胞类型。
细胞类型表达结果
把目标基因在不同细胞群中的表达模式快速看清楚。
marker 比较图或表
适合组会展示或作为后续分析方向判断依据。
轻量公开附件包
保留脚本、报告、图表与结果表,去除超大 h5ad 原始矩阵,下载与转发更轻便。
💡 适用场景
做实验前先查参考图谱
先看目标基因在公开单细胞图谱中的细胞定位,减少盲目试错。
注释自己的单细胞结果
当你需要快速确认某个 cluster 可能是什么细胞类型时尤其有用。
组会回答 marker 问题
导师追问某个基因到底在哪些细胞里表达时,可以快速给出参考证据。
搭配 GEO / bulk 结果做细化解释
把 bulk 线索进一步下钻到细胞类型层面。
⚙️ 核心实操流程
先找有没有你关心的组织和疾病
第一步你先不查表达。 先看数据库里有没有你这道题能用的数据。 哪些组织、哪些疾病标签、多少细胞,全先帮你摸清了
调用 `cellxgene-census`: 检索人类心脏、外周血或炎症相关数据集中, 与心衰 / 心肌重构相关的单细胞数据, 返回可用数据集、组织来源、疾病标签和细胞数量。
直接点名你关心的细胞群
你这时候就能跳过“下载全量矩阵”这一步。 直接把目标细胞群和 marker 点名出来。 几秒钟之后,你想看的表达差异已经在表里排好了
✅演示输入(自然语言提示词): 在上述数据集中, 提取 fibroblast、macrophage 和 endothelial cell, 比较 COL1A1、POSTN、IL1B、TGFB1 的表达, 输出按细胞类型分层的表达统计。
把查询结果做成图
单细胞真正能打动人的,是图。 不是一坨 matrix。 点图、热图、细胞比例表一起出来,组会上你已经能开始讲故事了
用 `scanpy` / `anndata` 对刚才的子集结果生成: - gene expression dotplot - 各细胞群 marker heatmap - 疾病组 vs 对照组的细胞比例比较表
顺手导出可继续分析的子集
最后你还可以把结果收成一个小子集。 下次想继续做差异表达、通讯分析、轨迹分析,直接接着跑。 自己不只是“查了个库”,而是已经把后续分析入口也准备好了
把刚才筛出来的目标细胞子集导出成小体积 AnnData / CSV, 并附一段说明: 这个子集后续适合继续做哪些分析(差异表达、轨迹、细胞通讯等)。
建议录制的关键画面
- Census 数据集检索结果
- 组织 / 疾病 / 细胞类型过滤过程
- 基因表达统计结果表
- dotplot / heatmap 成品
- 细胞比例对比表
- 导出的 AnnData / CSV 子集文件
建议准备的关键截图
- 数据集清单
- marker dotplot
- 细胞比例比较表
- 导出子集文件列表
🧯 最常见的 4 类翻车点
不同图谱上下文直接混用
组织、疾病状态和测序策略不同的数据集不能简单横向对比。
只看一个 marker 就定细胞类型
单基因表达很难支撑稳定注释,最好结合多个 marker 或 signature。
忽略细胞数和样本量
表达差异看起来明显,但如果 cell count 太少,结论很容易不稳定。
不保留查询条件
没有记录筛选条件和数据来源,后续很难复现或继续深入分析。
🔗 相关技能
💡 代码包内含 README.md,说明目录结构、主要文件与使用建议。解压后即可继续整理或二次演示。