第6章寻找失踪运动员：中心极限定理

📘 原书正文提炼（OCR页 79-81）

原书借“失踪运动员”故事强调：中心极限定理针对的是样本统计量（如样本均值）的分布，而不是原始个体数据本身必须正态。

重复抽样后，样本统计量会围绕总体参数分布；样本量越大，波动越小，估计越稳定。

即使总体分布不是正态，在一定条件下样本均值分布仍可近似正态，这是许多经典推断方法成立的基础。

🔍 深入讲解（第三次扩写）

CLT最常被误解成“n>30就万事大吉”。实际上，是否可近似正态还取决于偏态程度、尾部厚度、异常值比例及样本独立性。

在医学场景里，若指标极端偏态或存在天花板效应，仅靠增加样本不一定够，可能需要变量变换、稳健估计或Bootstrap方法辅助。

CLT告诉我们“抽样平均会稳定”，但不保证每次抽样都好看。因此研究报告应同时呈现估计值与不确定性，而不是只报单次点值。

设计阶段可把CLT用于样本量直觉：当预期波动较大时，需要更大样本来控制标准误，从而让区间更窄、结论更稳。

🧩 概念拆解与方法边界

样本统计量分布：关注的是均值/比例等统计量的重复抽样行为。
标准误：样本统计量的波动尺度，样本越大通常越小。
近似正态：是渐近性质，不是对每个数据集的硬性承诺。

🏥 医学科研落地场景

• 临床试验均值差推断依赖样本均值近似正态。
• 多中心研究可通过增样本降低中心间随机波动影响。
• 偏态生物标志物分析可结合对数变换与Bootstrap。

🧪 小例题（本章最短实战）

演示CLT：从偏态总体反复抽样，观察“样本均值”分布会比原始数据更接近正态。

💻 R 最短复现片段

set.seed(106)
mu <- replicate(1000, mean(rexp(40, rate=.2)))
hist(mu, breaks=30, col="#ddd6fe")
mean(mu); sd(mu)
shapiro.test(mu[sample(1:1000, 200)])

📌 R结果解释标准模板

• 数据概况：原始分布偏态，但样本均值分布接近正态。
• 核心结果：报告样本均值的均值、标准差和正态性检验结果。
• 解释句式：'重复抽样后统计量分布趋于稳定，支持后续参数推断。'

🛠️ 常见报错排查（R运行失败时怎么改）

• 报错 `object not found`：先运行完整代码块（含 `set.seed`、`data.frame`），不要只运行最后两行模型代码。
• 报错 `could not find function`：确认函数来源包是否已安装并加载；优先执行 `install.packages('包名')` 后再 `library(包名)`。
• 报错 `non-numeric argument`：检查变量类型，必要时用 `str(dat)` 查看并将字符变量转为数值或因子。
• 报错 `contrasts can be applied only to factors`：分组变量先转因子，例如 `dat$group <- as.factor(dat$group)`。
• 报错 `NA/NaN/Inf in ...`：先清理缺失或无穷值，如 `dat <- na.omit(dat)`，并排查除零与非法变换。
• 结果与页面示例不完全一致：先确认 R 版本与包版本，再完整重跑代码块；模拟数据场景下以“方向与解释框架一致”为主。

🖱️ SPSS 最短复现片段

先随机抽样生成多组样本均值，再画直方图比较原变量与均值变量。

* 先得到均值变量后再检视分布.
EXAMINE VARIABLES=sample_mean
/PLOT=HISTOGRAM NPPLOT.

🧾 论文/汇报可直接套用

方法描述句：'基于中心极限定理，样本均值差近似服从正态分布，故采用参数方法进行区间估计与假设检验。'

⚠️ 本章高发误区

• 把CLT误解为“原始数据必须正态”。
• 机械套用“n>30”不看偏态程度。
• 忽视异常值与重尾分布影响。
• 把近似结论说成绝对结论。

✅ 本章实操清单

• 判断样本量是否足以支撑近似。
• 检查分布形态与异常值情况。
• 必要时加做稳健/重抽样分析。
• 报告标准误和区间，不只报均值。

📝 课后思考题

• 你的关键结局是否满足独立同分布近似？
• 若样本量翻倍，标准误会怎样变化？
• 在你的数据里，CLT近似最可能在哪一步失效？