📘 原书正文提炼(OCR页 141-143)
原书指出,正态性与方差齐性是经典模型高频前提。现实中更应理解为“不要偏得太离谱”,而不是机械追求完美满足。
常见正态性检验(如SW/KS等)只是辅助证据,不能替代图形诊断和领域判断;样本量很大时,微小偏离也可能被检出显著。
诊断思路应是“统计检验+图形检查+敏感性分析”三位一体,而非单看一个P值。
🔍 深入讲解(第三次扩写)
正态性严格针对残差而非原始结局变量本身。很多论文直接检验原始变量后下结论,这会遗漏模型结构造成的偏差。
方差齐性在回归里对应同方差假设:不同预测水平下残差波动应大致稳定。若出现漏斗形残差图,通常提示异方差问题。
面对轻度违背前提,稳健标准误、变量变换、分层建模往往足够;面对严重违背,则应考虑替代模型或非参数方案。
模型诊断不是“找毛病”,而是提高解释可信度。你在文中明确写出诊断流程,反而能显著增强读者信任。
🧩 概念拆解与方法边界
- 残差正态性:关注模型未解释部分的分布形态。
- 同方差性:不同预测值下残差方差应近似一致。
- 诊断闭环:检验、图形、敏感性分析需相互验证。
🏥 医学科研落地场景
- • 线性回归建模后固定输出Q-Q图与残差-拟合值图。
- • 异方差明显时采用稳健标准误并报告差异。
- • 基金中预先写明“模型前提不满足时的替代方案”。
🧪 小例题(本章最短实战)
线性回归后检查残差Q-Q图与残差-拟合值图,确认前提条件是否可接受。
💻 R 最短复现片段
set.seed(111)
dat <- data.frame(
x1 = rnorm(180, 0, 1),
x2 = rnorm(180, 0, 1)
)
dat$y <- 6 + 1.8*dat$x1 - 0.9*dat$x2 + rnorm(180, 0, 1.5)
fit <- lm(y ~ x1 + x2, data=dat)
par(mfrow=c(1,2))
plot(fit, which=1)
plot(fit, which=2)
summary(fit)$coefficients
📌 R结果解释标准模板
- • 数据概况:多变量线性回归后必须报告诊断图(残差图、Q-Q图)。
- • 核心结果:检查是否存在明显漏斗形或严重偏离对角线。
- • 解释句式:'模型残差基本满足前提/存在异方差迹象,故采用稳健分析补充。'
🛠️ 常见报错排查(R运行失败时怎么改)
- • 报错 `object not found`:先运行完整代码块(含 `set.seed`、`data.frame`),不要只运行最后两行模型代码。
- • 报错 `could not find function`:确认函数来源包是否已安装并加载;优先执行 `install.packages('包名')` 后再 `library(包名)`。
- • 报错 `non-numeric argument`:检查变量类型,必要时用 `str(dat)` 查看并将字符变量转为数值或因子。
- • 报错 `contrasts can be applied only to factors`:分组变量先转因子,例如 `dat$group <- as.factor(dat$group)`。
- • 报错 `NA/NaN/Inf in ...`:先清理缺失或无穷值,如 `dat <- na.omit(dat)`,并排查除零与非法变换。
- • 结果与页面示例不完全一致:先确认 R 版本与包版本,再完整重跑代码块;模拟数据场景下以“方向与解释框架一致”为主。
🖱️ SPSS 最短复现片段
线性回归 > 图形:ZPRED对ZRESID;保存标准化残差后做正态图。
REGRESSION /DEPENDENT y
/METHOD=ENTER x1 x2
/SAVE ZRESID ZPRED.
🧾 论文/汇报可直接套用
方法句:'模型拟合后通过Q-Q图、残差图及Shapiro-Wilk检验综合评估前提条件,并进行稳健性分析。'
⚠️ 本章高发误区
- • 只看一个正态性检验P值。
- • 检验原始变量却忽视残差诊断。
- • 前提不满足仍机械沿用参数方法。
- • 不报告模型诊断过程。
✅ 本章实操清单
- • 先做图形诊断,再看检验结果。
- • 区分轻度违背与严重违背前提。
- • 必要时改用稳健/替代模型。
- • 把诊断结果写入方法与补充材料。
📝 课后思考题
- • 你的模型诊断是否形成了可复现流程?
- • 如果改用稳健标准误,结论是否改变?
- • 哪些前提违背对你的结论最敏感?