第11章模型应用条件与诊断

📘 原书正文提炼（OCR页 141-143）

原书指出，正态性与方差齐性是经典模型高频前提。现实中更应理解为“不要偏得太离谱”，而不是机械追求完美满足。

常见正态性检验（如SW/KS等）只是辅助证据，不能替代图形诊断和领域判断；样本量很大时，微小偏离也可能被检出显著。

诊断思路应是“统计检验+图形检查+敏感性分析”三位一体，而非单看一个P值。

🔍 深入讲解（第三次扩写）

正态性严格针对残差而非原始结局变量本身。很多论文直接检验原始变量后下结论，这会遗漏模型结构造成的偏差。

方差齐性在回归里对应同方差假设：不同预测水平下残差波动应大致稳定。若出现漏斗形残差图，通常提示异方差问题。

面对轻度违背前提，稳健标准误、变量变换、分层建模往往足够；面对严重违背，则应考虑替代模型或非参数方案。

模型诊断不是“找毛病”，而是提高解释可信度。你在文中明确写出诊断流程，反而能显著增强读者信任。

🧩 概念拆解与方法边界

残差正态性：关注模型未解释部分的分布形态。
同方差性：不同预测值下残差方差应近似一致。
诊断闭环：检验、图形、敏感性分析需相互验证。

🏥 医学科研落地场景

• 线性回归建模后固定输出Q-Q图与残差-拟合值图。
• 异方差明显时采用稳健标准误并报告差异。
• 基金中预先写明“模型前提不满足时的替代方案”。

🧪 小例题（本章最短实战）

线性回归后检查残差Q-Q图与残差-拟合值图，确认前提条件是否可接受。

💻 R 最短复现片段

set.seed(111)
dat <- data.frame(
  x1 = rnorm(180, 0, 1),
  x2 = rnorm(180, 0, 1)
)
dat$y <- 6 + 1.8*dat$x1 - 0.9*dat$x2 + rnorm(180, 0, 1.5)
fit <- lm(y ~ x1 + x2, data=dat)
par(mfrow=c(1,2))
plot(fit, which=1)
plot(fit, which=2)
summary(fit)$coefficients

📌 R结果解释标准模板

• 数据概况：多变量线性回归后必须报告诊断图（残差图、Q-Q图）。
• 核心结果：检查是否存在明显漏斗形或严重偏离对角线。
• 解释句式：'模型残差基本满足前提/存在异方差迹象，故采用稳健分析补充。'

🛠️ 常见报错排查（R运行失败时怎么改）

• 报错 `object not found`：先运行完整代码块（含 `set.seed`、`data.frame`），不要只运行最后两行模型代码。
• 报错 `could not find function`：确认函数来源包是否已安装并加载；优先执行 `install.packages('包名')` 后再 `library(包名)`。
• 报错 `non-numeric argument`：检查变量类型，必要时用 `str(dat)` 查看并将字符变量转为数值或因子。
• 报错 `contrasts can be applied only to factors`：分组变量先转因子，例如 `dat$group <- as.factor(dat$group)`。
• 报错 `NA/NaN/Inf in ...`：先清理缺失或无穷值，如 `dat <- na.omit(dat)`，并排查除零与非法变换。
• 结果与页面示例不完全一致：先确认 R 版本与包版本，再完整重跑代码块；模拟数据场景下以“方向与解释框架一致”为主。

🖱️ SPSS 最短复现片段

线性回归 > 图形：ZPRED对ZRESID；保存标准化残差后做正态图。

REGRESSION /DEPENDENT y
/METHOD=ENTER x1 x2
/SAVE ZRESID ZPRED.

🧾 论文/汇报可直接套用

方法句：'模型拟合后通过Q-Q图、残差图及Shapiro-Wilk检验综合评估前提条件，并进行稳健性分析。'

⚠️ 本章高发误区

• 只看一个正态性检验P值。
• 检验原始变量却忽视残差诊断。
• 前提不满足仍机械沿用参数方法。
• 不报告模型诊断过程。

✅ 本章实操清单

• 先做图形诊断，再看检验结果。
• 区分轻度违背与严重违背前提。
• 必要时改用稳健/替代模型。
• 把诊断结果写入方法与补充材料。

📝 课后思考题

• 你的模型诊断是否形成了可复现流程？
• 如果改用稳健标准误，结论是否改变？
• 哪些前提违背对你的结论最敏感？