第16章回归分析思路总览

📘 原书正文提炼（OCR页 237-238）

原书把线性回归用途概括为三类：识别影响因素、控制混杂后估计真实关系、利用模型进行预测。这三件事对应科研最常见需求。

理解回归前必须理解“因变量是随机变量”：同一自变量水平下，结局可有多个取值，模型拟合的是条件均值而非每个个体的精确命中。

残差是模型诊断关键。观测值与拟合值差异越有结构性，越提示模型缺项、非线性或方差问题。

🔍 深入讲解（第三次扩写）

线性回归方程可写观测值形式、均值形式与样本估计形式。三种写法对应“理论机制—总体关系—样本近似”的不同层次，混淆会导致解释错误。

混杂控制是回归价值所在。若只做单因素关系，结论易受第三变量影响；把关键混杂纳入模型后，才能更接近目标因果关系。

预测任务中要区分“解释型模型”与“预测型模型”：前者重可解释系数，后者重外部验证性能。两者指标与建模策略不完全一致。

回归结果报告应包含系数、区间、模型诊断、预测性能与限制说明，避免只给“显著不显著”的片段化输出。

🧩 概念拆解与方法边界

条件均值：模型拟合的是给定X时Y的期望值。
残差：观测值与拟合值差，反映模型未解释部分。
混杂校正：在多变量框架下估计更接近真实关系。

🏥 医学科研落地场景

• 温度-发病率建模时先检验线性假设与残差结构。
• 队列研究估计暴露效应时纳入关键混杂协变量。
• 预测模型需做外部验证并报告校准/区分度。

🧪 小例题（本章最短实战）

构建多变量线性回归评估体重、运动量对心率影响，并检查残差与多重共线性。

💻 R 最短复现片段

set.seed(116)
dat <- data.frame(
  wt = rnorm(220, 66, 10),
  exercise = rnorm(220, 3.5, 1.2),
  age = rnorm(220, 46, 11)
)
dat$hr <- 48 + 0.35*dat$wt - 1.8*dat$exercise + 0.22*dat$age + rnorm(220, 0, 5)
fit <- lm(hr ~ wt + exercise + age, data=dat)
vif_base <- function(model) {
  x <- model.matrix(model)[, -1, drop = FALSE]
  sapply(seq_len(ncol(x)), function(i) {
    r2 <- summary(lm(x[, i] ~ x[, -i, drop = FALSE]))$r.squared
    1 / (1 - r2)
  })
}
summary(fit)
vif_base(fit)
plot(fit, which=1)

📌 R结果解释标准模板

• 数据概况：多变量线性回归用于同时评估多个影响因素。
• 核心结果：报告各变量 β、95%CI、P 值与共线性诊断（VIF）。
• 解释句式：'在校正其余协变量后，exercise 与 hr 呈独立负相关（β=...）。'

🛠️ 常见报错排查（R运行失败时怎么改）

• 报错 `object not found`：先运行完整代码块（含 `set.seed`、`data.frame`），不要只运行最后两行模型代码。
• 报错 `could not find function`：确认函数来源包是否已安装并加载；优先执行 `install.packages('包名')` 后再 `library(包名)`。
• 报错 `non-numeric argument`：检查变量类型，必要时用 `str(dat)` 查看并将字符变量转为数值或因子。
• 报错 `contrasts can be applied only to factors`：分组变量先转因子，例如 `dat$group <- as.factor(dat$group)`。
• 报错 `NA/NaN/Inf in ...`：先清理缺失或无穷值，如 `dat <- na.omit(dat)`，并排查除零与非法变换。
• 结果与页面示例不完全一致：先确认 R 版本与包版本，再完整重跑代码块；模拟数据场景下以“方向与解释框架一致”为主。

🖱️ SPSS 最短复现片段

分析 > 回归 > 线性；统计量中勾选共线性诊断，图形输出残差图。

REGRESSION
/DEPENDENT hr
/METHOD=ENTER wt exercise age
/STATISTICS COEFF CI(95) COLLIN.

🧾 论文/汇报可直接套用

结果句：'多变量线性回归显示，在校正年龄、性别及基础疾病后，主要暴露与结局仍保持独立关联（β=...，95%CI ...）。'

⚠️ 本章高发误区

• 把相关关系直接当回归因果解释。
• 不看残差图就宣布模型可靠。
• 遗漏关键混杂导致系数偏倚。
• 解释型与预测型模型目标混淆。

✅ 本章实操清单

• 明确建模目标：解释还是预测。
• 预先定义核心协变量与混杂列表。
• 固定输出残差诊断与稳健性分析。
• 完整报告系数、区间与模型性能。

📝 课后思考题

• 你的模型最主要未解释变异来自哪里？
• 关键系数在不同协变量组合下是否稳定？
• 如果用于预测，是否完成外部验证？