首页 AI科研技能库 CELLxGENE 单细胞图谱速查
第25期 ⭐⭐⭐ 进阶

CELLxGENE 单细胞图谱速查

按组织、疾病和细胞类型快速查询公开单细胞图谱,先把参考图谱查准,再决定后续 marker 或分析方向。

⏱️ 学习时间:15分钟 🎬 视频类型:单细胞数据库实操教程 🧰 核心技能:cellxgene-census · scanpy · anndata
⚠️
免责声明: 本内容仅供医学与科研学习参考,不作为临床诊断、正式处方或独立科研结论依据。实际决策请结合数据来源、伦理要求与专业判断。
🎯

技能简介

单细胞数据的第一步不一定是自己重新分析,而是先找到可靠的公开参考图谱。第 25 期适合用来快速回答“这个细胞类型在哪里表达某个基因”“这个组织里哪些细胞最值得看”。本次公开附件包采用轻量版整理方式:保留脚本、报告、图表、结果表与中小型导出文件,去除了超大的 h5ad 原始矩阵,便于直接下载和二次演示。

传统方式通常需要 1–2小时反复查库,而把流程说清楚后,AI 辅助可以在 约10分钟 内先跑出第一轮可汇报结果。

🧭 开始前先确认这 4 件事

组织和疾病范围先锁定

查询前先把器官、疾病状态和物种边界讲清楚,避免一次拉出过多无关数据。

细胞类型命名先统一

不同图谱的细胞标签命名方式不完全相同,最好先决定关注的细胞谱系。

marker 或基因清单先准备

明确想看的基因、signature 或比较对象,查询结果会更聚焦。

输出形式要先讲好

是做表达速查、生成图还是导出后继续在 scanpy/anndata 里处理,入口不同。

📦 一轮像样输出至少应交付这 4 样

图谱检索摘要

记录数据来源、组织、疾病、样本量和目标细胞类型。

细胞类型表达结果

把目标基因在不同细胞群中的表达模式快速看清楚。

marker 比较图或表

适合组会展示或作为后续分析方向判断依据。

轻量公开附件包

保留脚本、报告、图表与结果表,去除超大 h5ad 原始矩阵,下载与转发更轻便。

💡 适用场景

🧫

做实验前先查参考图谱

先看目标基因在公开单细胞图谱中的细胞定位,减少盲目试错。

🧭

注释自己的单细胞结果

当你需要快速确认某个 cluster 可能是什么细胞类型时尤其有用。

📊

组会回答 marker 问题

导师追问某个基因到底在哪些细胞里表达时,可以快速给出参考证据。

🧩

搭配 GEO / bulk 结果做细化解释

把 bulk 线索进一步下钻到细胞类型层面。

⚙️ 核心实操流程

1

先找有没有你关心的组织和疾病

第一步你先不查表达。 先看数据库里有没有你这道题能用的数据。 哪些组织、哪些疾病标签、多少细胞,全先帮你摸清了

调用 `cellxgene-census`:
检索人类心脏、外周血或炎症相关数据集中,
与心衰 / 心肌重构相关的单细胞数据,
返回可用数据集、组织来源、疾病标签和细胞数量。
2

直接点名你关心的细胞群

你这时候就能跳过“下载全量矩阵”这一步。 直接把目标细胞群和 marker 点名出来。 几秒钟之后,你想看的表达差异已经在表里排好了

✅演示输入(自然语言提示词):
在上述数据集中,
提取 fibroblast、macrophage 和 endothelial cell,
比较 COL1A1、POSTN、IL1B、TGFB1 的表达,
输出按细胞类型分层的表达统计。
3

把查询结果做成图

单细胞真正能打动人的,是图。 不是一坨 matrix。 点图、热图、细胞比例表一起出来,组会上你已经能开始讲故事了

用 `scanpy` / `anndata` 对刚才的子集结果生成:
- gene expression dotplot
- 各细胞群 marker heatmap
- 疾病组 vs 对照组的细胞比例比较表
4

顺手导出可继续分析的子集

最后你还可以把结果收成一个小子集。 下次想继续做差异表达、通讯分析、轨迹分析,直接接着跑。 自己不只是“查了个库”,而是已经把后续分析入口也准备好了

把刚才筛出来的目标细胞子集导出成小体积 AnnData / CSV,
并附一段说明:
这个子集后续适合继续做哪些分析(差异表达、轨迹、细胞通讯等)。

建议录制的关键画面

  • Census 数据集检索结果
  • 组织 / 疾病 / 细胞类型过滤过程
  • 基因表达统计结果表
  • dotplot / heatmap 成品
  • 细胞比例对比表
  • 导出的 AnnData / CSV 子集文件

建议准备的关键截图

  • 数据集清单
  • marker dotplot
  • 细胞比例比较表
  • 导出子集文件列表

🧯 最常见的 4 类翻车点

不同图谱上下文直接混用

组织、疾病状态和测序策略不同的数据集不能简单横向对比。

只看一个 marker 就定细胞类型

单基因表达很难支撑稳定注释,最好结合多个 marker 或 signature。

忽略细胞数和样本量

表达差异看起来明显,但如果 cell count 太少,结论很容易不稳定。

不保留查询条件

没有记录筛选条件和数据来源,后续很难复现或继续深入分析。

🔗 相关技能

📦

下载完整代码包

包含:示例脚本、提示词、图表与结果文件 · 74个文件 · 8.6MB

立即下载

💡 代码包内含 README.md,说明目录结构、主要文件与使用建议。解压后即可继续整理或二次演示。