← 返回白话统计学目录
第14章 / 共16章

第14章 卡方检验:有“卡”未必走天下

卡方本质是“观察频数 vs 理论频数”的偏离评估。

📘 原书正文提炼(OCR页 196-197)

原书通过“心梗与吸烟四格表”展示卡方思想:先在无效假设下计算理论频数,再比较与实际频数的偏离是否超出随机误差可解释范围。

卡方并非只在列联表里出现,许多模型检验(如Wald、似然比、log-rank)背后都与卡方分布相关。

使用卡方前要确认频数条件与设计结构:期望频数过小、配对数据或稀疏表格场景下,常需切换Fisher或McNemar等方法。

🔍 深入讲解(第三次扩写)

把两组率比较理解成“均值差比较”也能做,但卡方路径更强调分类数据的频数结构,解释上更贴近列联表直觉。

卡方值越大,说明理论与观察差异越大;但差异来源可能是抽样误差,也可能是无效假设错误,统计推断正是要区分这两种可能。

病例对照研究里,卡方显著后仍应报告OR及区间。因为P值告诉你“是否有关联”,OR告诉你“关联有多强”。

若存在分层或混杂因素,仅靠简单卡方不足以回答因果问题,需进入分层分析或Logistic回归。

🧩 概念拆解与方法边界

🏥 医学科研落地场景

🧪 小例题(本章最短实战)

病例对照四格表比较吸烟与心梗关联,输出χ²与OR,不只看显著性。

💻 R 最短复现片段

tab <- matrix(c(158,169,82,311), nrow=2, byrow=TRUE)
dimnames(tab) <- list(mi=c("yes","no"), smoke=c("yes","no"))
chisq.test(tab, correct=FALSE)
fisher.test(tab)

📌 R结果解释标准模板

🛠️ 常见报错排查(R运行失败时怎么改)

🖱️ SPSS 最短复现片段

列联表中勾选卡方和风险估计;若期望频数过小同时看Fisher。

CROSSTABS
/TABLES=mi BY smoke
/STATISTICS=CHISQ RISK
/CELLS=COUNT ROW COLUMN.

🧾 论文/汇报可直接套用

结果句:'列联表分析显示两变量存在统计学关联(χ²=xx.xx,P<0.001),进一步报告OR及95%CI以量化关联强度。'

⚠️ 本章高发误区

✅ 本章实操清单

📝 课后思考题