技能简介
公共数据库不是“没有数据”,而是“数据太多而且不够整齐”。第 24 期的重点是先把值得分析的 GSE 挑出来,再把表达矩阵、样本分组和差异结果一次整理好。
传统方式通常需要 半天筛数据 + 半天整理,而把流程说清楚后,AI 辅助可以在 约15分钟 内先跑出第一轮可汇报结果。
🧭 开始前先确认这 4 件事
检索范围先收窄
疾病、物种、组织来源和研究类型要先限定,不然很容易搜出大量不可比较的数据集。
平台和样本量要一起看
不同平台、不同探针或测序方案混在一起时,后续预处理与差异分析会很难统一。
分组信息必须能落地
最关键的是样本注释能否真正拆成 case/control 或 treatment/control,而不是只有模糊描述。
后续验证目标要预想好
筛数据时就想清楚是为了做差异分析、做验证还是做线索发现,能少走很多弯路。
📦 一轮像样输出至少应交付这 4 样
候选 GSE 数据集清单
包含平台、样本量、组织来源和分组信息,方便组会上快速比较。
分析就绪的表达矩阵与 metadata
先把样本分组、探针/基因映射和质量问题处理干净。
差异表达结果与图形输出
至少包括 log2FC、FDR、火山图和热图等基础结果。
top genes 注释摘要
把显著基因的功能和疾病关联补成一页,结果更容易讲故事。
💡 适用场景
开题前找公开证据
先用 GEO 看看某个疾病或组织有没有足够公开表达数据。
验证候选基因
拿已有候选基因去公共队列里做快速表达验证和分组比较。
快速做一轮预实验
在正式做实验前先用公开数据判断方向值不值得继续深挖。
组会或综述补充证据
把 top genes 和表达变化整理成更容易展示的一页摘要。
⚙️ 核心实操流程
先把 GEO 数据集筛干净
第一步,你不是直接下载。 你先让它告诉你:哪几个 GSE 真正值得看。 可用数据集清单已经被按样本量和研究设计筛好了
调用 `geo-database`: 检索与 HFpEF 或心衰心肌重构相关的人类/小鼠 bulk RNA-seq / expression profiling 数据集, 优先返回 case-control 设计、样本数 > 20 的研究, 输出 GSE 编号、平台、样本量、分组信息和组织来源。
下载表达矩阵并整理分组
这一步最容易卡人。 因为矩阵和 metadata 一旦对不上,后面全白搭。 但它会先把表达矩阵和样本表给你配平,省掉你最容易崩溃的手工对齐
下载最合适的一个 GSE 数据集, 整理表达矩阵和样本分组表, 检查缺失值、重复探针和批次信息, 输出可直接用于差异分析的 count / expression matrix。
差异分析直接开跑
你真正要看的爽点来了。 火山图一出来,哪边上调、哪边下调,直接看明白。 差异基因列表、火山图和热图一口气落地
调用 `pydeseq2`: 比较心衰组和对照组的差异表达, 输出 log2FoldChange、FDR、显著基因列表, 并生成火山图和 top 20 基因热图。
把 top genes 注释成能讲的故事
很多人到差异基因这一步就停了。 但真正能拿去汇报的,是“这些基因到底在干嘛”。 top genes 的功能和疾病关联都已经补全了
调用 `gget`: 对显著差异基因中的 top 10 进行注释, 补充基因功能、已知疾病关联和参考数据库链接, 输出一页适合组会汇报的基因摘要表。
建议录制的关键画面
- GEO 检索结果清单
- GSE 平台与样本信息表
- 表达矩阵和 metadata 对齐过程
- 差异分析结果表
- 火山图与热图输出
- top genes 注释摘要页
建议准备的关键截图
- 候选 GEO 数据集列表
- 表达矩阵预览
- 火山图
- top 20 基因热图
🧯 最常见的 4 类翻车点
不同平台直接硬拼
bulk RNA-seq、芯片和不同物种数据不先分开,结果往往不可解释。
样本注释没看清就开跑
group label 一旦对错样本,后面差异分析越“漂亮”越危险。
忽略 probe 到 gene 的映射问题
芯片平台尤其要先处理重复 probe 和缺失注释。
只停在差异基因列表
没有 top genes 注释和背景解释,结果很难真正进入汇报和写作。
🔗 相关技能
💡 代码包内含 README.md,说明目录结构、主要文件与使用建议。解压后即可继续整理或二次演示。