← 返回白话统计学目录
第16章 / 共16章

第16章 回归分析思路总览

回归不是黑箱公式,而是“解释+校正+预测”的框架。

📘 原书正文提炼(OCR页 237-238)

原书把线性回归用途概括为三类:识别影响因素、控制混杂后估计真实关系、利用模型进行预测。这三件事对应科研最常见需求。

理解回归前必须理解“因变量是随机变量”:同一自变量水平下,结局可有多个取值,模型拟合的是条件均值而非每个个体的精确命中。

残差是模型诊断关键。观测值与拟合值差异越有结构性,越提示模型缺项、非线性或方差问题。

🔍 深入讲解(第三次扩写)

线性回归方程可写观测值形式、均值形式与样本估计形式。三种写法对应“理论机制—总体关系—样本近似”的不同层次,混淆会导致解释错误。

混杂控制是回归价值所在。若只做单因素关系,结论易受第三变量影响;把关键混杂纳入模型后,才能更接近目标因果关系。

预测任务中要区分“解释型模型”与“预测型模型”:前者重可解释系数,后者重外部验证性能。两者指标与建模策略不完全一致。

回归结果报告应包含系数、区间、模型诊断、预测性能与限制说明,避免只给“显著不显著”的片段化输出。

🧩 概念拆解与方法边界

🏥 医学科研落地场景

🧪 小例题(本章最短实战)

构建多变量线性回归评估体重、运动量对心率影响,并检查残差与多重共线性。

💻 R 最短复现片段

set.seed(116)
dat <- data.frame(
  wt = rnorm(220, 66, 10),
  exercise = rnorm(220, 3.5, 1.2),
  age = rnorm(220, 46, 11)
)
dat$hr <- 48 + 0.35*dat$wt - 1.8*dat$exercise + 0.22*dat$age + rnorm(220, 0, 5)
fit <- lm(hr ~ wt + exercise + age, data=dat)
vif_base <- function(model) {
  x <- model.matrix(model)[, -1, drop = FALSE]
  sapply(seq_len(ncol(x)), function(i) {
    r2 <- summary(lm(x[, i] ~ x[, -i, drop = FALSE]))$r.squared
    1 / (1 - r2)
  })
}
summary(fit)
vif_base(fit)
plot(fit, which=1)

📌 R结果解释标准模板

🛠️ 常见报错排查(R运行失败时怎么改)

🖱️ SPSS 最短复现片段

分析 > 回归 > 线性;统计量中勾选共线性诊断,图形输出残差图。

REGRESSION
/DEPENDENT hr
/METHOD=ENTER wt exercise age
/STATISTICS COEFF CI(95) COLLIN.

🧾 论文/汇报可直接套用

结果句:'多变量线性回归显示,在校正年龄、性别及基础疾病后,主要暴露与结局仍保持独立关联(β=...,95%CI ...)。'

⚠️ 本章高发误区

✅ 本章实操清单

📝 课后思考题