技能简介
这一期适合放在 MR 项目的最前面。重点不是替代正式因果分析,而是先判断暴露—结局组合是否值得进入下一轮设计、汇报和数据准备。
传统方式通常需要 半天到1天,而把流程说清楚后,AI 辅助可以在 约10分钟 内先跑出第一轮可汇报结果。
🧭 开始前先确认这 4 件事
暴露与结局词条先收敛
先把主要暴露、候选结局和同义词列清楚,后续 GWAS 与文献检索才不会反复改口径。
GWAS 可用性先做基础盘点
至少先看公开数据源、样本量、人群背景和是否具备做 MR 预筛的最低条件。
文献空白与生物学支撑要同时看
只看数据可得性不够,还要同步判断机制 plausibility 和方向是否已经过于拥挤。
输出格式提前固定
如果目标是给导师开会看,最好一开始就按 shortlist 表和结论卡片来组织。
📦 一轮像样输出至少应交付这 4 样
MR 选题预筛表
集中展示暴露、结局、GWAS 可用性、样本量等级和推荐优先级。
生物学支撑摘要
把暴露相关通路与疾病证据压成一页说明,方便判断是否值得继续讲机制。
文献拥挤度判断
用近年已发表 MR 数量区分“相对空白”和“已经很挤”的方向。
组会汇报结论卡
把最终 shortlist 和一段结论说明整理成可直接汇报的版本。
💡 适用场景
MR 开题前排队
在真正写方案前,先用统一口径筛掉数据基础不足或已过度拥挤的方向。
导师会前准备
把多个暴露—结局组合整理成可比较的 shortlist,便于快速讨论优先级。
并行题目初筛
当候选题目较多时,这一页可以帮助团队先做第一轮收敛。
遗传流行病学入门
适合新手先理解“选题预筛”和“正式分析”之间的边界。
⚙️ 核心实操流程
先确认暴露和结局有没有公开 GWAS
第一步你先别谈因果。 先看数据在不在。 哪些 trait 有大型公开 GWAS、哪些只有小样本研究,已经先帮你排好了
调用 `gwas-database`: 检索 LDL-C、收缩压、CRP 这些暴露, 以及冠心病、心衰、认知功能这些结局对应的 GWAS 数据, 返回样本量、人群、代表性 study 和是否适合做 MR 预筛。
看这个题有没有像样的疾病证据链
MR 不是只要有 SNP 就能做得漂亮。 你还要先看,这条生物学链路讲不讲得通。 第二步跑完之后,哪个方向更像“有故事、有 plausibility 的题”,立刻就清楚了
调用 `opentargets-database`: 检查 LDL 代谢、炎症标志物、血压相关通路 与冠心病、心衰、认知下降这些疾病之间的证据强度, 输出最值得优先关注的暴露-结局组合。
查这个方向是不是已经做得太挤了
很多人选题死在这一步。 不是因为不会做,是因为做完才发现别人发过了。 哪些方向已经很卷,哪些方向还有空位,已经先被标红标绿了
调用 `pubmed-database`: 检索近 5 年关于 LDL-C / CRP / 收缩压 与冠心病、心衰、认知功能的孟德尔随机化研究, 统计已发表数量, 标出“相对拥挤”和“相对空白”的方向。
输出一张可给导师看的 MR 选题 shortlist
最后你不是拿着几十个网页去开会。 一张能直接给导师看的选题优先级表出来了。 而你的同门还在一个个搜 PMID
把以上结果整理成一张 MR 选题预筛表,包含: - 暴露 - 结局 - GWAS 可用性 - 样本量等级 - 生物学合理性 - 文献拥挤度 - 推荐优先级(高 / 中 / 低) 并写一段适合组会汇报的结论说明。
建议录制的关键画面
- 暴露和结局候选词输入
- GWAS 可用性检索结果
- Open Targets 疾病证据摘要
- PubMed 近年 MR 文献数量对比
- 最终 MR 选题预筛表
建议准备的关键截图
- trait 数据源摘要表
- 文献拥挤度对比表
- 推荐优先级 shortlist
- 组会汇报结论卡片
🧯 最常见的 4 类翻车点
只看有没有 GWAS
数据存在不代表题目合适,样本量、人群构成和结局定义都要一起判断。
忽略已有 MR 密度
如果做完才发现方向已经被反复发表,前期时间会白白消耗。
把统计可做性当成生物学结论
预筛只能帮助排序,不应提前把 plausibility 说成因果结论。
shortlist 过于口号化
如果输出没有样本量、文献密度和证据等级,开会时仍然很难真正做决策。
🔗 相关技能
💡 代码包内含 README.md,说明目录结构、主要文件与使用建议。解压后即可继续整理或二次演示。