🦠 新手导读:菌群MR为什么更难?
菌群GWAS常见效应小、工具变量少、跨队列异质性高,因此需要更严格的敏感性分析与结果分层解释。
背景介绍
“肠道菌群→心脏结构功能”是典型多通路问题。MR适合做方向性筛选,但结论通常需要结合功能注释和生物学验证。
备注(统一三段)
适用人群:关注菌群-心血管影像机制、需要探索性筛选候选通路的研究者。
常见错误:多结局多菌群场景若不做FDR控制,阳性结果很容易被高估。
论文写法:建议按“发现队列结果+多重校正+生物学可解释性”三段汇报。
📊 研究设计
暴露变量
肠道菌群丰度(门、属、种水平)
数据来源:MiBioGen consortium
结局变量
心脏磁共振指标(LV mass, EF, CBF等)
数据来源:UK Biobank CMR
🔧 分析流程
- 工具变量筛选:p < 5×10⁻⁸,去除LD(r² < 0.001)
- F统计量计算:确保 F > 10,避免弱工具变量偏倚
- 数据协调:统一等位基因方向
- MR分析:IVW, Weighted Median, MR-Egger
- 敏感性分析:Cochran's Q, 漏斗图, Leave-one-out
- 通路富集:MetaCyc, BioCyc 数据库查询
💻 核心代码
1. 工具变量筛选
library(TwoSampleMR)
# 读取肠道菌群 GWAS 数据
gut_exposure <- read_exposure_data(
filename = "gut_microbiome_gwas.txt",
sep = "\t",
snp_col = "SNP",
beta_col = "Beta",
se_col = "SE",
effect_allele_col = "EA",
other_allele_col = "NEA",
pval_col = "P"
)
# 筛选显著 SNP(p < 5e-8)
exposure_snps <- gut_exposure %>%
filter(pval.exposure < 5e-8) %>%
clump_data(
clump_kb = 10000,
clump_r2 = 0.001,
clump_p1 = 1,
clump_p2 = 1
)
# 计算 F 统计量
exposure_snps$f_stat <- (exposure_snps$beta.exposure / exposure_snps$se.exposure)^2
summary(exposure_snps$f_stat)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 12.5 25.3 38.7 45.2 58.1 125.6
# ✅ 所有 SNP 的 F > 10,工具变量强度足够
2. 提取结局数据
# 从 IEU OpenGWAS 提取 CMR 数据 cmr_outcome <- extract_outcome_data( snps = exposure_snps$SNP, outcomes = "ukb-b-12345", # LV mass proxies = TRUE ) # 数据协调 harmonised_data <- harmonise_data( exposure_dat = exposure_snps, outcome_dat = cmr_outcome ) # 检查协调结果 nrow(harmonised_data) # 保留的 SNP 数量 # [1] 15
3. MR 分析
# 执行多种 MR 方法
mr_results <- mr(harmonised_data,
method_list = c(
"mr_ivw",
"mr_weighted_median",
"mr_egger_regression"
))
# 结果汇总
mr_results %>%
select(method, nsnp, b, se, pval) %>%
mutate(OR = exp(b),
CI_lower = exp(b - 1.96*se),
CI_upper = exp(b + 1.96*se))
# 输出示例:
# method nsnp b se pval OR CI_lower CI_upper
# IVW 15 0.12 0.05 0.018 1.13 1.02 1.25
# Weighted Median 15 0.11 0.06 0.065 1.12 0.99 1.26
# MR-Egger 15 0.09 0.08 0.290 1.09 0.93 1.28
4. 敏感性分析
# 异质性检验 heterogeneity <- mr_heterogeneity(harmonised_data) heterogeneity # method Q Q_df pval # IVW 18.3 14 0.195 # MR-Egger 17.8 13 0.165 # ✅ 无显著异质性 # 多效性检验 pleiotropy <- mr_pleiotropy_test(harmonised_data) pleiotropy # egger_intercept se pval # 0.012 0.018 0.512 # ✅ 无水平多效性 # Leave-one-out 分析 loo <- mr_leaveoneout(harmonised_data) mr_leaveoneout_plot(loo) # 漏斗图 mr_funnel_plot(mr_results) # 散点图 mr_scatter_plot(mr_results, harmonised_data)
🎯 关键结果
✅ 阳性发现
- • 瘤胃球菌属 → LV mass (OR=1.13, p=0.018)
- • 拟杆菌门 → LVEF (OR=0.92, p=0.034)
- • 普雷沃菌属 → CBF (OR=1.08, p=0.041)
📊 质量控制
- • F 统计量范围:12.5 - 125.6
- • 异质性检验:p > 0.05
- • 多效性检验:p = 0.512
📚 扩展资源
通路富集分析
显著菌群通过以下数据库进行功能注释:
- MetaCyc:代谢通路数据库
- BioCyc:微生物基因组数据库
- KEGG:通路富集分析