第2章变异：统计学存在的基础

📘 原书正文提炼（OCR页 21-23）

原书把“变异”放在统计学起点：个体差异与抽样波动客观存在，所以我们无法靠单个观察直接推出总体结论，必须借助统计推断。

“随机变量”不是说已经观测到的数值会乱跳，而是说如果重新抽样，得到的样本统计量会变化。一次调查的结果只是众多可能结果中的一个实现。

统计工作的本质，是在随机与波动中识别稳定模式：多数人层面的规律，而非少数个案的偶然巧合。

🔍 深入讲解（第三次扩写）

从方法论上看，变异主要来自两类：随机误差与系统偏差。前者可通过扩大样本、优化测量降低影响；后者则要靠设计环节控制，如随机化、盲法、统一流程。

很多“神奇疗法”传播快，是因为个体改善案例天然更吸睛。但统计要求把镜头拉到总体：若绝大多数人无获益，个案就不能上升为规律。

抽样调查之所以可行，前提是代表性。原书给出的历史案例说明：样本再大，如果抽样框架错了，结论一样会严重偏离现实。

医学上常见的“这批病人看起来都有效”，需要回到变异框架：比较组间差异是否超过组内波动，并排除选择偏倚和信息偏倚。

🧩 概念拆解与方法边界

随机现象：单次不可预知，但重复观察后可呈现统计规律。
样本与总体：用样本统计量估计总体参数，必然伴随抽样误差。
代表性：抽样框架决定外推质量，比样本量本身更关键。

🏥 医学科研落地场景

• 药物有效性评估时，先看组内波动，再解释组间差值。
• 队列研究建库前，优先定义纳入/排除标准与抽样路径。
• 公共卫生调查时，分层抽样往往比便利抽样更可靠。

🧪 小例题（本章最短实战）

比较某药物前后收缩压变化时，先看“个体波动”再看“组均值变化”，用可视化确认并非少数极端值驱动结论。

💻 R 最短复现片段

set.seed(102)
df <- data.frame(
  id=1:60,
  pre=rnorm(60, 148, 12),
  post=rnorm(60, 140, 12)
)
df$delta <- df$post - df$pre
summary(df$delta)
sd(df$delta)
t.test(df$post, df$pre, paired = TRUE)

📌 R结果解释标准模板

• 数据概况：同一对象前后测量，结局为 delta=post-pre，属于配对数据。
• 核心结果：报告 delta 的均值、标准差，以及配对 t 检验 P 值。
• 解释句式：'治疗后收缩压平均变化为 X mmHg（95%CI ...），提示干预后血压呈下降/无明显变化。'

🛠️ 常见报错排查（R运行失败时怎么改）

• 报错 `object not found`：先运行完整代码块（含 `set.seed`、`data.frame`），不要只运行最后两行模型代码。
• 报错 `could not find function`：确认函数来源包是否已安装并加载；优先执行 `install.packages('包名')` 后再 `library(包名)`。
• 报错 `non-numeric argument`：检查变量类型，必要时用 `str(dat)` 查看并将字符变量转为数值或因子。
• 报错 `contrasts can be applied only to factors`：分组变量先转因子，例如 `dat$group <- as.factor(dat$group)`。
• 报错 `NA/NaN/Inf in ...`：先清理缺失或无穷值，如 `dat <- na.omit(dat)`，并排查除零与非法变换。
• 结果与页面示例不完全一致：先确认 R 版本与包版本，再完整重跑代码块；模拟数据场景下以“方向与解释框架一致”为主。

🖱️ SPSS 最短复现片段

转换 > 计算变量（delta=post-pre）；分析 > 描述统计 > 描述。

COMPUTE delta = post - pre.
DESCRIPTIVES VARIABLES=delta /STATISTICS=MEAN STDDEV MIN MAX.

🧾 论文/汇报可直接套用

方法学写作句：'考虑到个体差异与抽样误差，本研究采用代表性抽样并通过统计推断估计目标总体参数。'

⚠️ 本章高发误区

• 把随机波动误判为真实疗效。
• 忽视抽样框架导致的系统偏差。
• 把“样本一次结果”当成固定真相。
• 只强调样本量，不说明代表性。

✅ 本章实操清单

• 区分随机误差与系统偏差。
• 说明抽样策略与抽样框来源。
• 报告组内变异指标（SD/IQR）。
• 评估结论可外推的目标人群。

📝 课后思考题

• 你的研究里，最大的不确定来源是随机误差还是系统偏差？
• 若重新抽样一次，核心结果方向会稳定吗？
• 目标总体与当前样本之间有哪些结构差异？