第24期：GEO 公共数据库挖掘

⚠️

免责声明： 本内容仅供医学与科研学习参考，不作为临床诊断、正式处方或独立科研结论依据。实际决策请结合数据来源、伦理要求与专业判断。

🎯

技能简介

公共数据库不是“没有数据”，而是“数据太多而且不够整齐”。第 24 期的重点是先把值得分析的 GSE 挑出来，再把表达矩阵、样本分组和差异结果一次整理好。

传统方式通常需要半天筛数据 + 半天整理，而把流程说清楚后，AI 辅助可以在 约15分钟 内先跑出第一轮可汇报结果。

🧭 开始前先确认这 4 件事

检索范围先收窄

疾病、物种、组织来源和研究类型要先限定，不然很容易搜出大量不可比较的数据集。

平台和样本量要一起看

不同平台、不同探针或测序方案混在一起时，后续预处理与差异分析会很难统一。

分组信息必须能落地

最关键的是样本注释能否真正拆成 case/control 或 treatment/control，而不是只有模糊描述。

后续验证目标要预想好

筛数据时就想清楚是为了做差异分析、做验证还是做线索发现，能少走很多弯路。

📦 一轮像样输出至少应交付这 4 样

候选 GSE 数据集清单

包含平台、样本量、组织来源和分组信息，方便组会上快速比较。

分析就绪的表达矩阵与 metadata

先把样本分组、探针/基因映射和质量问题处理干净。

差异表达结果与图形输出

至少包括 log2FC、FDR、火山图和热图等基础结果。

top genes 注释摘要

把显著基因的功能和疾病关联补成一页，结果更容易讲故事。

💡 适用场景

🧬

开题前找公开证据

先用 GEO 看看某个疾病或组织有没有足够公开表达数据。

🔍

验证候选基因

拿已有候选基因去公共队列里做快速表达验证和分组比较。

📈

快速做一轮预实验

在正式做实验前先用公开数据判断方向值不值得继续深挖。

🧾

组会或综述补充证据

把 top genes 和表达变化整理成更容易展示的一页摘要。

⚙️ 核心实操流程

先把 GEO 数据集筛干净

第一步，你不是直接下载。你先让它告诉你：哪几个 GSE 真正值得看。可用数据集清单已经被按样本量和研究设计筛好了

调用 `geo-database`：
检索与 HFpEF 或心衰心肌重构相关的人类/小鼠 bulk RNA-seq / expression profiling 数据集，
优先返回 case-control 设计、样本数 > 20 的研究，
输出 GSE 编号、平台、样本量、分组信息和组织来源。

下载表达矩阵并整理分组

这一步最容易卡人。因为矩阵和 metadata 一旦对不上，后面全白搭。但它会先把表达矩阵和样本表给你配平，省掉你最容易崩溃的手工对齐

下载最合适的一个 GSE 数据集，
整理表达矩阵和样本分组表，
检查缺失值、重复探针和批次信息，
输出可直接用于差异分析的 count / expression matrix。

差异分析直接开跑

你真正要看的爽点来了。火山图一出来，哪边上调、哪边下调，直接看明白。差异基因列表、火山图和热图一口气落地

调用 `pydeseq2`：
比较心衰组和对照组的差异表达，
输出 log2FoldChange、FDR、显著基因列表，
并生成火山图和 top 20 基因热图。

把 top genes 注释成能讲的故事

很多人到差异基因这一步就停了。但真正能拿去汇报的，是“这些基因到底在干嘛”。 top genes 的功能和疾病关联都已经补全了

调用 `gget`：
对显著差异基因中的 top 10 进行注释，
补充基因功能、已知疾病关联和参考数据库链接，
输出一页适合组会汇报的基因摘要表。

建议录制的关键画面

GEO 检索结果清单
GSE 平台与样本信息表
表达矩阵和 metadata 对齐过程
差异分析结果表
火山图与热图输出
top genes 注释摘要页

建议准备的关键截图

候选 GEO 数据集列表
表达矩阵预览
火山图
top 20 基因热图

🧯 最常见的 4 类翻车点

不同平台直接硬拼

bulk RNA-seq、芯片和不同物种数据不先分开，结果往往不可解释。

样本注释没看清就开跑

group label 一旦对错样本，后面差异分析越“漂亮”越危险。

忽略 probe 到 gene 的映射问题

芯片平台尤其要先处理重复 probe 和缺失注释。

只停在差异基因列表

没有 top genes 注释和背景解释，结果很难真正进入汇报和写作。

🔗 相关技能

第02期

PubMed 文献检索神器

先确认研究方向和证据背景

第11期

差异表达分析

把 GEO 数据接到标准 DE 工作流

第25期

CELLxGENE 单细胞图谱

继续往更细粒度的公开图谱走

第27期

GWAS 位点功能注释

把表达线索继续连接到遗传证据

📦

下载完整代码包

包含：示例脚本、提示词、图表与结果文件 · 285个文件 · 64.5MB

立即下载

💡 代码包内含 README.md，说明目录结构、主要文件与使用建议。解压后即可继续整理或二次演示。