统计学方法R语言复现

🔬

阅读医学论文时，让AI帮你识别使用的统计学方法和模型，并生成对应的R代码进行复现

1 完整版：识别方法+生成代码

Prompt:
请阅读以下文档内容，回答：
1. 这篇文章使用了哪些统计学方法和模型？
2. 请用R语言复现这些分析方法
3. 使用中文语言解释每个统计方法的用途
4. 提供完整的R代码示例

请包括：
- 描述性统计方法
- 组间比较方法（t检验、卡方检验等）
- 回归模型（线性回归、Logistic回归、Cox回归等）
- 多重比较校正方法
- 缺失值处理方法

[粘贴论文的Methods部分或全文]

💡 提示：适合有完整Methods部分的论文

2 简化版：仅识别统计方法

Prompt:
请仔细阅读以下论文的统计学部分，列出所有使用的统计方法和模型。
要求：
1. 用中文列出方法名称
2. 说明每种方法的应用场景
3. 指出使用的R包或统计软件

[粘贴论文的Statistics部分]

💡 提示：快速了解论文的统计方法框架

3 表格复现版：从Table生成代码

Prompt:
以下是论文中的Table 1（基线特征表），请帮我生成可以复现这个表格的R代码。
要求：
1. 计算连续变量的均值±标准差或中位数（四分位数间距）
2. 计算分类变量的频数和百分比
3. 进行组间比较（t检验、Wilcoxon检验、卡方检验等）
4. 按照论文格式整理输出表格

[粘贴Table 1的内容]

💡 提示：最常见的复现需求

4 方法1：描述性统计

# 连续变量（正态分布）
mean_sd <- data %>%
  summarise(
    Mean = mean(age, na.rm = TRUE),
    SD = sd(age, na.rm = TRUE)
  )

# 连续变量（非正态分布）
median_iqr <- data %>%
  summarise(
    Median = median(age, na.rm = TRUE),
    Q1 = quantile(age, 0.25, na.rm = TRUE),
    Q3 = quantile(age, 0.75, na.rm = TRUE)
  )

# 分类变量
freq_pct <- data %>%
  count(gender) %>%
  mutate(
    Percent = n / sum(n) * 100
  )

5 方法2：组间比较

# 两组连续变量比较（正态分布）
t.test(age ~ group, data = data)

# 两组连续变量比较（非正态分布）
wilcox.test(age ~ group, data = data)

# 分类变量比较
chisq.test(table(data$group, data$outcome))

# 配对样本比较
t.test(before ~ after, data = paired_data, paired = TRUE)

6 方法3：线性回归

# 简单线性回归
model <- lm(outcome ~ predictor, data = data)
summary(model)

# 多元线性回归
model_multi <- lm(outcome ~ age + gender + bmi, data = data)
summary(model_multi)

# 提取系数和置信区间
confint(model_multi)

7 方法4：Logistic回归

# 二分类结局
logistic_model <- glm(binary_outcome ~ age + gender + bmi,
                      data = data,
                      family = binomial())

summary(logistic_model)

# 计算OR值和95%CI
exp(cbind(OR = coef(logistic_model),
         confint(logistic_model)))

8 方法5：Cox比例风险模型

library(survival)

# Cox回归
cox_model <- coxph(Surv(time, status) ~ age + gender + treatment,
                   data = data)

summary(cox_model)

# 提取HR值和95%CI
cox_summary <- broom::tidy(cox_model,
                           exponentiate = TRUE,
                           conf.int = TRUE)

9 方法6：生存分析

# KM生存曲线
surv_fit <- survfit(Surv(time, status) ~ group, data = data)

# 绘图
ggsurvplot(surv_fit,
           data = data,
           pval = TRUE,
           conf.int = TRUE,
           risk.table = TRUE)