← 返回白话统计学目录
第6章 / 共16章

第6章 寻找失踪运动员:中心极限定理

原始数据可以乱,样本统计量会逐步变稳。

📘 原书正文提炼(OCR页 79-81)

原书借“失踪运动员”故事强调:中心极限定理针对的是样本统计量(如样本均值)的分布,而不是原始个体数据本身必须正态。

重复抽样后,样本统计量会围绕总体参数分布;样本量越大,波动越小,估计越稳定。

即使总体分布不是正态,在一定条件下样本均值分布仍可近似正态,这是许多经典推断方法成立的基础。

🔍 深入讲解(第三次扩写)

CLT最常被误解成“n>30就万事大吉”。实际上,是否可近似正态还取决于偏态程度、尾部厚度、异常值比例及样本独立性。

在医学场景里,若指标极端偏态或存在天花板效应,仅靠增加样本不一定够,可能需要变量变换、稳健估计或Bootstrap方法辅助。

CLT告诉我们“抽样平均会稳定”,但不保证每次抽样都好看。因此研究报告应同时呈现估计值与不确定性,而不是只报单次点值。

设计阶段可把CLT用于样本量直觉:当预期波动较大时,需要更大样本来控制标准误,从而让区间更窄、结论更稳。

🧩 概念拆解与方法边界

🏥 医学科研落地场景

🧪 小例题(本章最短实战)

演示CLT:从偏态总体反复抽样,观察“样本均值”分布会比原始数据更接近正态。

💻 R 最短复现片段

set.seed(106)
mu <- replicate(1000, mean(rexp(40, rate=.2)))
hist(mu, breaks=30, col="#ddd6fe")
mean(mu); sd(mu)
shapiro.test(mu[sample(1:1000, 200)])

📌 R结果解释标准模板

🛠️ 常见报错排查(R运行失败时怎么改)

🖱️ SPSS 最短复现片段

先随机抽样生成多组样本均值,再画直方图比较原变量与均值变量。

* 先得到均值变量后再检视分布.
EXAMINE VARIABLES=sample_mean
/PLOT=HISTOGRAM NPPLOT.

🧾 论文/汇报可直接套用

方法描述句:'基于中心极限定理,样本均值差近似服从正态分布,故采用参数方法进行区间估计与假设检验。'

⚠️ 本章高发误区

✅ 本章实操清单

📝 课后思考题