首页 AI科研技能库 GEO 公共数据库挖掘
第24期 ⭐⭐⭐ 进阶

GEO 公共数据库挖掘

先把 GSE 数据集筛准,再把表达矩阵、差异分析和 top genes 注释接成一个可汇报的公共数据库工作流。

⏱️ 学习时间:15分钟 🎬 视频类型:公共数据库实操教程 🧰 核心技能:geo-database · pydeseq2 · gget
⚠️
免责声明: 本内容仅供医学与科研学习参考,不作为临床诊断、正式处方或独立科研结论依据。实际决策请结合数据来源、伦理要求与专业判断。
🎯

技能简介

公共数据库不是“没有数据”,而是“数据太多而且不够整齐”。第 24 期的重点是先把值得分析的 GSE 挑出来,再把表达矩阵、样本分组和差异结果一次整理好。

传统方式通常需要 半天筛数据 + 半天整理,而把流程说清楚后,AI 辅助可以在 约15分钟 内先跑出第一轮可汇报结果。

🧭 开始前先确认这 4 件事

检索范围先收窄

疾病、物种、组织来源和研究类型要先限定,不然很容易搜出大量不可比较的数据集。

平台和样本量要一起看

不同平台、不同探针或测序方案混在一起时,后续预处理与差异分析会很难统一。

分组信息必须能落地

最关键的是样本注释能否真正拆成 case/control 或 treatment/control,而不是只有模糊描述。

后续验证目标要预想好

筛数据时就想清楚是为了做差异分析、做验证还是做线索发现,能少走很多弯路。

📦 一轮像样输出至少应交付这 4 样

候选 GSE 数据集清单

包含平台、样本量、组织来源和分组信息,方便组会上快速比较。

分析就绪的表达矩阵与 metadata

先把样本分组、探针/基因映射和质量问题处理干净。

差异表达结果与图形输出

至少包括 log2FC、FDR、火山图和热图等基础结果。

top genes 注释摘要

把显著基因的功能和疾病关联补成一页,结果更容易讲故事。

💡 适用场景

🧬

开题前找公开证据

先用 GEO 看看某个疾病或组织有没有足够公开表达数据。

🔍

验证候选基因

拿已有候选基因去公共队列里做快速表达验证和分组比较。

📈

快速做一轮预实验

在正式做实验前先用公开数据判断方向值不值得继续深挖。

🧾

组会或综述补充证据

把 top genes 和表达变化整理成更容易展示的一页摘要。

⚙️ 核心实操流程

1

先把 GEO 数据集筛干净

第一步,你不是直接下载。 你先让它告诉你:哪几个 GSE 真正值得看。 可用数据集清单已经被按样本量和研究设计筛好了

调用 `geo-database`:
检索与 HFpEF 或心衰心肌重构相关的人类/小鼠 bulk RNA-seq / expression profiling 数据集,
优先返回 case-control 设计、样本数 > 20 的研究,
输出 GSE 编号、平台、样本量、分组信息和组织来源。
2

下载表达矩阵并整理分组

这一步最容易卡人。 因为矩阵和 metadata 一旦对不上,后面全白搭。 但它会先把表达矩阵和样本表给你配平,省掉你最容易崩溃的手工对齐

下载最合适的一个 GSE 数据集,
整理表达矩阵和样本分组表,
检查缺失值、重复探针和批次信息,
输出可直接用于差异分析的 count / expression matrix。
3

差异分析直接开跑

你真正要看的爽点来了。 火山图一出来,哪边上调、哪边下调,直接看明白。 差异基因列表、火山图和热图一口气落地

调用 `pydeseq2`:
比较心衰组和对照组的差异表达,
输出 log2FoldChange、FDR、显著基因列表,
并生成火山图和 top 20 基因热图。
4

把 top genes 注释成能讲的故事

很多人到差异基因这一步就停了。 但真正能拿去汇报的,是“这些基因到底在干嘛”。 top genes 的功能和疾病关联都已经补全了

调用 `gget`:
对显著差异基因中的 top 10 进行注释,
补充基因功能、已知疾病关联和参考数据库链接,
输出一页适合组会汇报的基因摘要表。

建议录制的关键画面

  • GEO 检索结果清单
  • GSE 平台与样本信息表
  • 表达矩阵和 metadata 对齐过程
  • 差异分析结果表
  • 火山图与热图输出
  • top genes 注释摘要页

建议准备的关键截图

  • 候选 GEO 数据集列表
  • 表达矩阵预览
  • 火山图
  • top 20 基因热图

🧯 最常见的 4 类翻车点

不同平台直接硬拼

bulk RNA-seq、芯片和不同物种数据不先分开,结果往往不可解释。

样本注释没看清就开跑

group label 一旦对错样本,后面差异分析越“漂亮”越危险。

忽略 probe 到 gene 的映射问题

芯片平台尤其要先处理重复 probe 和缺失注释。

只停在差异基因列表

没有 top genes 注释和背景解释,结果很难真正进入汇报和写作。

🔗 相关技能

📦

下载完整代码包

包含:示例脚本、提示词、图表与结果文件 · 285个文件 · 64.5MB

立即下载

💡 代码包内含 README.md,说明目录结构、主要文件与使用建议。解压后即可继续整理或二次演示。