第25期：CELLxGENE 单细胞图谱速查

⚠️

免责声明： 本内容仅供医学与科研学习参考，不作为临床诊断、正式处方或独立科研结论依据。实际决策请结合数据来源、伦理要求与专业判断。

🎯

技能简介

单细胞数据的第一步不一定是自己重新分析，而是先找到可靠的公开参考图谱。第 25 期适合用来快速回答“这个细胞类型在哪里表达某个基因”“这个组织里哪些细胞最值得看”。本次公开附件包采用轻量版整理方式：保留脚本、报告、图表、结果表与中小型导出文件，去除了超大的 h5ad 原始矩阵，便于直接下载和二次演示。

传统方式通常需要 1–2小时反复查库，而把流程说清楚后，AI 辅助可以在 约10分钟 内先跑出第一轮可汇报结果。

🧭 开始前先确认这 4 件事

组织和疾病范围先锁定

查询前先把器官、疾病状态和物种边界讲清楚，避免一次拉出过多无关数据。

细胞类型命名先统一

不同图谱的细胞标签命名方式不完全相同，最好先决定关注的细胞谱系。

marker 或基因清单先准备

明确想看的基因、signature 或比较对象，查询结果会更聚焦。

输出形式要先讲好

是做表达速查、生成图还是导出后继续在 scanpy/anndata 里处理，入口不同。

📦 一轮像样输出至少应交付这 4 样

图谱检索摘要

记录数据来源、组织、疾病、样本量和目标细胞类型。

细胞类型表达结果

把目标基因在不同细胞群中的表达模式快速看清楚。

marker 比较图或表

适合组会展示或作为后续分析方向判断依据。

轻量公开附件包

保留脚本、报告、图表与结果表，去除超大 h5ad 原始矩阵，下载与转发更轻便。

💡 适用场景

🧫

做实验前先查参考图谱

先看目标基因在公开单细胞图谱中的细胞定位，减少盲目试错。

🧭

注释自己的单细胞结果

当你需要快速确认某个 cluster 可能是什么细胞类型时尤其有用。

📊

组会回答 marker 问题

导师追问某个基因到底在哪些细胞里表达时，可以快速给出参考证据。

🧩

搭配 GEO / bulk 结果做细化解释

把 bulk 线索进一步下钻到细胞类型层面。

⚙️ 核心实操流程

先找有没有你关心的组织和疾病

第一步你先不查表达。先看数据库里有没有你这道题能用的数据。哪些组织、哪些疾病标签、多少细胞，全先帮你摸清了

调用 `cellxgene-census`：
检索人类心脏、外周血或炎症相关数据集中，
与心衰 / 心肌重构相关的单细胞数据，
返回可用数据集、组织来源、疾病标签和细胞数量。

直接点名你关心的细胞群

你这时候就能跳过“下载全量矩阵”这一步。直接把目标细胞群和 marker 点名出来。几秒钟之后，你想看的表达差异已经在表里排好了

✅演示输入（自然语言提示词）:
在上述数据集中，
提取 fibroblast、macrophage 和 endothelial cell，
比较 COL1A1、POSTN、IL1B、TGFB1 的表达，
输出按细胞类型分层的表达统计。

把查询结果做成图

单细胞真正能打动人的，是图。不是一坨 matrix。点图、热图、细胞比例表一起出来，组会上你已经能开始讲故事了

用 `scanpy` / `anndata` 对刚才的子集结果生成：
- gene expression dotplot
- 各细胞群 marker heatmap
- 疾病组 vs 对照组的细胞比例比较表

顺手导出可继续分析的子集

最后你还可以把结果收成一个小子集。下次想继续做差异表达、通讯分析、轨迹分析，直接接着跑。自己不只是“查了个库”，而是已经把后续分析入口也准备好了

把刚才筛出来的目标细胞子集导出成小体积 AnnData / CSV，
并附一段说明：
这个子集后续适合继续做哪些分析（差异表达、轨迹、细胞通讯等）。

建议录制的关键画面

Census 数据集检索结果
组织 / 疾病 / 细胞类型过滤过程
基因表达统计结果表
dotplot / heatmap 成品
细胞比例对比表
导出的 AnnData / CSV 子集文件

建议准备的关键截图

数据集清单
marker dotplot
细胞比例比较表
导出子集文件列表

🧯 最常见的 4 类翻车点

不同图谱上下文直接混用

组织、疾病状态和测序策略不同的数据集不能简单横向对比。

只看一个 marker 就定细胞类型

单基因表达很难支撑稳定注释，最好结合多个 marker 或 signature。

忽略细胞数和样本量

表达差异看起来明显，但如果 cell count 太少，结论很容易不稳定。

不保留查询条件

没有记录筛选条件和数据来源，后续很难复现或继续深入分析。

🔗 相关技能

第03期

单细胞分析一键搞定

把公开图谱查询接到标准单细胞流程

第24期

GEO 公共数据库挖掘

先从 bulk 公共数据库找线索

第29期

FCS 流式文件自动整理

继续往另一类单细胞实验数据扩展

第30期

电子病历风险预测

把细胞层线索与临床预测任务衔接

📦

下载完整代码包

包含：示例脚本、提示词、图表与结果文件 · 74个文件 · 8.6MB

立即下载

💡 代码包内含 README.md，说明目录结构、主要文件与使用建议。解压后即可继续整理或二次演示。