第1章为什么要学统计

📘 原书正文提炼（OCR页 17-19）

原书开篇强调：统计学的价值不在“定义有多漂亮”，而在它能不能把杂乱数据转成有方向的判断。21世纪是数字社会，读不懂数据，就像只会看字却看不懂新闻背后的逻辑。

书里还反复提醒“不要把大数据神化”。数据量再大，如果采集偏、解释偏、方法选错，挖出来的可能是闪光玻璃而不是金子；统计思维的任务就是识别这层错觉。

从生活到科研，统计都在处理同一件事：不确定。我们并不是追求“绝对真理”，而是在已知证据下做风险更低、可复核的选择。

🔍 深入讲解（第三次扩写）

很多同学学统计时容易卡在“公式太多”。但真正的学习顺序应当是：先问问题，再看数据，再选方法，最后才是公式。公式只是表达工具，问题意识才是发动机。

在医学研究里，统计不是写论文最后一晚才加的“方法学装饰”。研究设计、样本量估算、结局指标定义、亚组分析边界，全部都属于统计决策链的一部分。

原书用新闻阅读举例很典型：同一条新闻，用“比例”“均值”“同比”“环比”不同口径都能讲出不同故事。统计训练的核心能力，就是在这些口径里追问可比性与边界条件。

你会统计之后，最大的变化不是会做更多检验，而是更少被情绪标题带节奏：看到结论先问样本来源、抽样方式、对照策略、不确定性表达，这就是理性思维的具体动作。

🧩 概念拆解与方法边界

统计思维：先问“证据质量”再问“结论方向”，避免凭直觉拍板。
数据-信息-决策：数据只是原料，经过清洗与建模才变成可行动的信息。
不确定性管理：统计结论本质上是概率性判断，需要同时报告风险。

🏥 医学科研落地场景

• 读临床论文时，先看结局定义和样本代表性，再看 P 值与结论。
• 做科室小课题时，把“研究问题”写成可检验句子，避免边做边改。
• 写基金标书时，提前说明统计方案与偏倚控制，而不是只列软件名。

🧪 小例题（本章最短实战）

随机抽取两组各40人，比较干预前后健康宣教后的“统计素养测试得分”差异，目标是判断宣教是否带来实际提升，而不是只看单次高分个案。

💻 R 最短复现片段

set.seed(101)
group <- rep(c("control","intervention"), each = 40)
score <- c(rnorm(40, 62, 8), rnorm(40, 69, 8))
dat <- data.frame(group, score)
res <- t.test(score ~ group, data = dat)
res

📌 R结果解释标准模板

• 数据概况：共 N=80，control 组与 intervention 组各 40 例，结局为 score。
• 核心结果：报告均值差、95%CI 与 P 值（来自 t.test 输出）。
• 解释句式：'两组 score 存在/不存在统计学差异；结合均值差方向判断干预是否提升统计素养。'

🛠️ 常见报错排查（R运行失败时怎么改）

• 报错 `object not found`：先运行完整代码块（含 `set.seed`、`data.frame`），不要只运行最后两行模型代码。
• 报错 `could not find function`：确认函数来源包是否已安装并加载；优先执行 `install.packages('包名')` 后再 `library(包名)`。
• 报错 `non-numeric argument`：检查变量类型，必要时用 `str(dat)` 查看并将字符变量转为数值或因子。
• 报错 `contrasts can be applied only to factors`：分组变量先转因子，例如 `dat$group <- as.factor(dat$group)`。
• 报错 `NA/NaN/Inf in ...`：先清理缺失或无穷值，如 `dat <- na.omit(dat)`，并排查除零与非法变换。
• 结果与页面示例不完全一致：先确认 R 版本与包版本，再完整重跑代码块；模拟数据场景下以“方向与解释框架一致”为主。

🖱️ SPSS 最短复现片段

分析 > 比较均值 > 独立样本T检验；检验变量=score，分组变量=group（定义两组）。

T-TEST GROUPS=group('control' 'intervention')
/VARIABLES=score
/CRITERIA=CI(.95).

🧾 论文/汇报可直接套用

可直接用于论文背景句：'在数字化临床场景下，仅有数据规模并不足以支撑可靠结论，仍需基于统计学框架完成偏倚识别、效应估计与不确定性量化。'

⚠️ 本章高发误区

• 把“样本多”误当“证据强”。
• 把个案故事误当总体规律。
• 只看显著性，不看效应大小。
• 忽略结论适用人群与外推边界。

✅ 本章实操清单

• 先写清研究问题与目标总体。
• 检查样本来源与选择机制。
• 同时报告效应量、区间与 P 值。
• 给出结论的适用条件与限制。

📝 课后思考题

• 你最近读到的一条“数据新闻”，其样本是否具代表性？
• 如果结果不显著，你会如何判断是无效还是样本不足？
• 你的当前课题，统计方案是否在收集数据前就已固定？