🔬
统计学方法R语言复现
阅读医学论文时,让AI帮你识别使用的统计学方法和模型,并生成对应的R代码进行复现
1 完整版:识别方法+生成代码
Prompt: 请阅读以下文档内容,回答: 1. 这篇文章使用了哪些统计学方法和模型? 2. 请用R语言复现这些分析方法 3. 使用中文语言解释每个统计方法的用途 4. 提供完整的R代码示例 请包括: - 描述性统计方法 - 组间比较方法(t检验、卡方检验等) - 回归模型(线性回归、Logistic回归、Cox回归等) - 多重比较校正方法 - 缺失值处理方法 [粘贴论文的Methods部分或全文]
💡 提示:适合有完整Methods部分的论文
2 简化版:仅识别统计方法
Prompt: 请仔细阅读以下论文的统计学部分,列出所有使用的统计方法和模型。 要求: 1. 用中文列出方法名称 2. 说明每种方法的应用场景 3. 指出使用的R包或统计软件 [粘贴论文的Statistics部分]
💡 提示:快速了解论文的统计方法框架
3 表格复现版:从Table生成代码
Prompt: 以下是论文中的Table 1(基线特征表),请帮我生成可以复现这个表格的R代码。 要求: 1. 计算连续变量的均值±标准差或中位数(四分位数间距) 2. 计算分类变量的频数和百分比 3. 进行组间比较(t检验、Wilcoxon检验、卡方检验等) 4. 按照论文格式整理输出表格 [粘贴Table 1的内容]
💡 提示:最常见的复现需求
4 方法1:描述性统计
# 连续变量(正态分布)
mean_sd <- data %>%
summarise(
Mean = mean(age, na.rm = TRUE),
SD = sd(age, na.rm = TRUE)
)
# 连续变量(非正态分布)
median_iqr <- data %>%
summarise(
Median = median(age, na.rm = TRUE),
Q1 = quantile(age, 0.25, na.rm = TRUE),
Q3 = quantile(age, 0.75, na.rm = TRUE)
)
# 分类变量
freq_pct <- data %>%
count(gender) %>%
mutate(
Percent = n / sum(n) * 100
)
5 方法2:组间比较
# 两组连续变量比较(正态分布) t.test(age ~ group, data = data) # 两组连续变量比较(非正态分布) wilcox.test(age ~ group, data = data) # 分类变量比较 chisq.test(table(data$group, data$outcome)) # 配对样本比较 t.test(before ~ after, data = paired_data, paired = TRUE)
6 方法3:线性回归
# 简单线性回归 model <- lm(outcome ~ predictor, data = data) summary(model) # 多元线性回归 model_multi <- lm(outcome ~ age + gender + bmi, data = data) summary(model_multi) # 提取系数和置信区间 confint(model_multi)
7 方法4:Logistic回归
# 二分类结局
logistic_model <- glm(binary_outcome ~ age + gender + bmi,
data = data,
family = binomial())
summary(logistic_model)
# 计算OR值和95%CI
exp(cbind(OR = coef(logistic_model),
confint(logistic_model)))
8 方法5:Cox比例风险模型
library(survival)
# Cox回归
cox_model <- coxph(Surv(time, status) ~ age + gender + treatment,
data = data)
summary(cox_model)
# 提取HR值和95%CI
cox_summary <- broom::tidy(cox_model,
exponentiate = TRUE,
conf.int = TRUE)
9 方法6:生存分析
# KM生存曲线
surv_fit <- survfit(Surv(time, status) ~ group, data = data)
# 绘图
ggsurvplot(surv_fit,
data = data,
pval = TRUE,
conf.int = TRUE,
risk.table = TRUE)
🎯 按研究类型选择统计方法
队列研究 (Cohort Study)
观察性研究,随访暴露组和非暴露组的结局
- • 发病风险:Cumulative Incidence
- • 关联性:Cox回归、Logistic回归
- • 混杂调整:多元回归、倾向性评分
病例对照研究 (Case-Control)
回顾性研究,比较病例组和对照组的暴露史
- • 关联性:OR值(Logistic回归)
- • 匹配设计:条件Logistic回归
随机对照试验 (RCT)
前瞻性实验,随机分配干预措施
- • 基线比较:t检验、卡方检验
- • 疗效评估:ITT分析、PP分析
- • 生存分析:KM曲线、Cox回归
诊断试验 (Diagnostic Test)
评估诊断方法的准确性
- • 准确性指标:灵敏度、特异度
- • ROC曲线:AUC值
- • 最佳截断值:Youden指数
💡 复现技巧
- • 优先看Methods部分:统计方法通常在"Statistical Analysis"小节
- • 注意软件版本:不同版本的R包可能结果略有差异
- • 检查数据结构:确保你的数据格式与论文中的假设一致
- • 验证假设:正态性、方差齐性等统计检验假设
- • 关注缺失值处理:论文中的缺失值处理策略(完整案例分析vs多重插补)