📘 原书正文提炼(OCR页 237-238)
原书把线性回归用途概括为三类:识别影响因素、控制混杂后估计真实关系、利用模型进行预测。这三件事对应科研最常见需求。
理解回归前必须理解“因变量是随机变量”:同一自变量水平下,结局可有多个取值,模型拟合的是条件均值而非每个个体的精确命中。
残差是模型诊断关键。观测值与拟合值差异越有结构性,越提示模型缺项、非线性或方差问题。
🔍 深入讲解(第三次扩写)
线性回归方程可写观测值形式、均值形式与样本估计形式。三种写法对应“理论机制—总体关系—样本近似”的不同层次,混淆会导致解释错误。
混杂控制是回归价值所在。若只做单因素关系,结论易受第三变量影响;把关键混杂纳入模型后,才能更接近目标因果关系。
预测任务中要区分“解释型模型”与“预测型模型”:前者重可解释系数,后者重外部验证性能。两者指标与建模策略不完全一致。
回归结果报告应包含系数、区间、模型诊断、预测性能与限制说明,避免只给“显著不显著”的片段化输出。
🧩 概念拆解与方法边界
- 条件均值:模型拟合的是给定X时Y的期望值。
- 残差:观测值与拟合值差,反映模型未解释部分。
- 混杂校正:在多变量框架下估计更接近真实关系。
🏥 医学科研落地场景
- • 温度-发病率建模时先检验线性假设与残差结构。
- • 队列研究估计暴露效应时纳入关键混杂协变量。
- • 预测模型需做外部验证并报告校准/区分度。
🧪 小例题(本章最短实战)
构建多变量线性回归评估体重、运动量对心率影响,并检查残差与多重共线性。
💻 R 最短复现片段
set.seed(116)
dat <- data.frame(
wt = rnorm(220, 66, 10),
exercise = rnorm(220, 3.5, 1.2),
age = rnorm(220, 46, 11)
)
dat$hr <- 48 + 0.35*dat$wt - 1.8*dat$exercise + 0.22*dat$age + rnorm(220, 0, 5)
fit <- lm(hr ~ wt + exercise + age, data=dat)
vif_base <- function(model) {
x <- model.matrix(model)[, -1, drop = FALSE]
sapply(seq_len(ncol(x)), function(i) {
r2 <- summary(lm(x[, i] ~ x[, -i, drop = FALSE]))$r.squared
1 / (1 - r2)
})
}
summary(fit)
vif_base(fit)
plot(fit, which=1)
📌 R结果解释标准模板
- • 数据概况:多变量线性回归用于同时评估多个影响因素。
- • 核心结果:报告各变量 β、95%CI、P 值与共线性诊断(VIF)。
- • 解释句式:'在校正其余协变量后,exercise 与 hr 呈独立负相关(β=...)。'
🛠️ 常见报错排查(R运行失败时怎么改)
- • 报错 `object not found`:先运行完整代码块(含 `set.seed`、`data.frame`),不要只运行最后两行模型代码。
- • 报错 `could not find function`:确认函数来源包是否已安装并加载;优先执行 `install.packages('包名')` 后再 `library(包名)`。
- • 报错 `non-numeric argument`:检查变量类型,必要时用 `str(dat)` 查看并将字符变量转为数值或因子。
- • 报错 `contrasts can be applied only to factors`:分组变量先转因子,例如 `dat$group <- as.factor(dat$group)`。
- • 报错 `NA/NaN/Inf in ...`:先清理缺失或无穷值,如 `dat <- na.omit(dat)`,并排查除零与非法变换。
- • 结果与页面示例不完全一致:先确认 R 版本与包版本,再完整重跑代码块;模拟数据场景下以“方向与解释框架一致”为主。
🖱️ SPSS 最短复现片段
分析 > 回归 > 线性;统计量中勾选共线性诊断,图形输出残差图。
REGRESSION
/DEPENDENT hr
/METHOD=ENTER wt exercise age
/STATISTICS COEFF CI(95) COLLIN.
🧾 论文/汇报可直接套用
结果句:'多变量线性回归显示,在校正年龄、性别及基础疾病后,主要暴露与结局仍保持独立关联(β=...,95%CI ...)。'
⚠️ 本章高发误区
- • 把相关关系直接当回归因果解释。
- • 不看残差图就宣布模型可靠。
- • 遗漏关键混杂导致系数偏倚。
- • 解释型与预测型模型目标混淆。
✅ 本章实操清单
- • 明确建模目标:解释还是预测。
- • 预先定义核心协变量与混杂列表。
- • 固定输出残差诊断与稳健性分析。
- • 完整报告系数、区间与模型性能。
📝 课后思考题
- • 你的模型最主要未解释变异来自哪里?
- • 关键系数在不同协变量组合下是否稳定?
- • 如果用于预测,是否完成外部验证?