第13章方差分析：多组比较主战场

📘 原书正文提炼（OCR页 160-162）

原书强调：ANOVA的核心不是“比较几个均值”这么简单，而是把总变异拆解为组间变异与组内变异，判断哪一部分更能解释数据差异。

F值本质是组间均方/组内均方。若组间差异远大于组内随机波动，F值会偏大，提示组别因素可能真实影响结局。

这种变异分解思想不仅用于ANOVA，也深度嵌入回归模型与一般线性模型。

🔍 深入讲解（第三次扩写）

从解释角度看，ANOVA回答的是“变量能解释多少变异”。这比单纯问“显著不显著”更有信息量，尤其适合多因素科研问题。

ANOVA表中的模型项和误差项，其实对应“可解释变异”和“不可解释变异”。当模型解释比例高且稳定，才说明机制假设更可信。

如果总体检验显著，下一步应进入有校正的事后比较与效应量报告，而不是无约束地逐对检验。

在回归框架下，连续自变量和分类自变量都可进入同一方程，变异分解思路仍成立，这就是“为什么回归里也有方差分析”。

🧩 概念拆解与方法边界

总变异：数据总体波动规模。
组间/组内变异：分别代表系统差异与随机波动。
F统计量：衡量系统差异相对随机误差的强度。

🏥 医学科研落地场景

• 三种治疗方案比较先做总体ANOVA，再做校正后两两比较。
• 多因素实验可拆解主效应与交互效应贡献。
• 回归建模时用方差分析表检查模型解释力变化。

🧪 小例题（本章最短实战）

三组降压方案先做单因素ANOVA，显著后再做事后比较（如Bonferroni）。

💻 R 最短复现片段

set.seed(113)
g <- factor(rep(1:3, each=35))
bp <- c(rnorm(35,138,9), rnorm(35,132,9), rnorm(35,129,9))
fit <- aov(bp ~ g)
summary(fit); TukeyHSD(fit)

📌 R结果解释标准模板

• 数据概况：3组及以上均值比较，先做总体 ANOVA。
• 核心结果：先看 F 与总体 P 值，再看事后比较校正结果。
• 解释句式：'总体差异显著后，组X与组Y差异仍显著/不显著（校正后）。'

🛠️ 常见报错排查（R运行失败时怎么改）

• 报错 `object not found`：先运行完整代码块（含 `set.seed`、`data.frame`），不要只运行最后两行模型代码。
• 报错 `could not find function`：确认函数来源包是否已安装并加载；优先执行 `install.packages('包名')` 后再 `library(包名)`。
• 报错 `non-numeric argument`：检查变量类型，必要时用 `str(dat)` 查看并将字符变量转为数值或因子。
• 报错 `contrasts can be applied only to factors`：分组变量先转因子，例如 `dat$group <- as.factor(dat$group)`。
• 报错 `NA/NaN/Inf in ...`：先清理缺失或无穷值，如 `dat <- na.omit(dat)`，并排查除零与非法变换。
• 结果与页面示例不完全一致：先确认 R 版本与包版本，再完整重跑代码块；模拟数据场景下以“方向与解释框架一致”为主。

🖱️ SPSS 最短复现片段

分析 > 比较均值 > 单因素方差分析；事后检验选Bonferroni。

ONEWAY bp BY g
/POSTHOC=BONFERRONI
/STATISTICS DESCRIPTIVES.

🧾 论文/汇报可直接套用

结果句：'总体比较显示组间差异显著（F=6.18，P<0.001），提示处理因素对结局具有统计学影响。'

⚠️ 本章高发误区

• 总体不显著却继续大量两两比较。
• 只报P值，不报效应量。
• 忽视组内波动就解释组间差异。
• 把ANOVA误解为仅限多组均值检验。

✅ 本章实操清单

• 先做总体检验再做事后比较。
• 报告F值、自由度、P值和效应量。
• 评估方差齐性与残差分布。
• 说明多重比较校正方法。

📝 课后思考题

• 你的总变异中，模型解释比例大概是多少？
• 如果组内波动更大，当前结论是否还能成立？
• 你是否清楚报告了事后比较的校正策略？