第10章常见统计方法串讲

📘 原书正文提炼（OCR页 114-116）

原书在本章强调“方法之间是连通的”。t检验、方差分析、线性回归并非割裂工具，很多都可统一到一般线性模型框架理解。

当数据结构变化时，本质问题并没变：自变量能解释多少因变量变异、这种解释是否超出随机误差。

掌握方法地图的意义在于选型更稳：先看结局类型和设计，再选模型，不再凭“熟悉哪个就用哪个”。

🔍 深入讲解（第三次扩写）

一般线性模型视角能显著减少学习成本：两组比较是特殊回归，多组比较可用哑变量回归表达，方差分析表其实也是模型解释力的分解视图。

在医学课题里，经常需要从“描述—比较—调整—预测”一路推进。若有统一框架，分析报告会更连贯，也更方便与统计师沟通。

方法选择常见决策链：先确定结局（连续/二分类/计数/时间结局），再看数据依赖结构（独立/配对/重复测量），最后确认是否需要混杂控制。

把模型看成“问题翻译器”而非“显著性机器”，你会更关注效应解释、假设边界与可复现性。

🧩 概念拆解与方法边界

统一框架：多种常见方法可在GLM思想下互相映射。
模型解释力：关注自变量解释的变异比例与稳定性。
问题导向选型：先定义问题与数据结构，再决定模型。

🏥 医学科研落地场景

• 从单因素筛选到多因素建模时保持同一结局定义。
• 科室科研培训可用“结局类型→方法树”提高选型效率。
• 统计咨询前先画分析流程图，减少来回沟通成本。

🧪 小例题（本章最短实战）

同一问题分别用t检验和线性回归表达，验证两者在两组场景下的结论一致性。

💻 R 最短复现片段

set.seed(110)
dat <- data.frame(
  g = rep(c(0,1), each=50),
  y = c(rnorm(50, 10, 2), rnorm(50, 11.2, 2))
)
t_res <- t.test(y ~ g, data=dat)
lm_res <- summary(lm(y ~ g, data=dat))
t_res
lm_res

📌 R结果解释标准模板

• 数据概况：二组比较场景下，t检验与线性回归可得到一致方向结论。
• 核心结果：对照 t.test 的均值差与 lm 中 g 系数。
• 解释句式：'两种方法结论一致，支持组别对结局的稳定影响判断。'

🛠️ 常见报错排查（R运行失败时怎么改）

• 报错 `object not found`：先运行完整代码块（含 `set.seed`、`data.frame`），不要只运行最后两行模型代码。
• 报错 `could not find function`：确认函数来源包是否已安装并加载；优先执行 `install.packages('包名')` 后再 `library(包名)`。
• 报错 `non-numeric argument`：检查变量类型，必要时用 `str(dat)` 查看并将字符变量转为数值或因子。
• 报错 `contrasts can be applied only to factors`：分组变量先转因子，例如 `dat$group <- as.factor(dat$group)`。
• 报错 `NA/NaN/Inf in ...`：先清理缺失或无穷值，如 `dat <- na.omit(dat)`，并排查除零与非法变换。
• 结果与页面示例不完全一致：先确认 R 版本与包版本，再完整重跑代码块；模拟数据场景下以“方向与解释框架一致”为主。

🖱️ SPSS 最短复现片段

先做独立样本T检验，再做线性回归（自变量仅group）对照结果。

T-TEST GROUPS=g(0 1) /VARIABLES=y.
REGRESSION /DEPENDENT y /METHOD=ENTER g.

🧾 论文/汇报可直接套用

方法句：'结合结局变量属性与研究设计，本研究在一般线性模型框架下完成组间比较与多因素调整分析。'

⚠️ 本章高发误区

• 按习惯选方法，不看数据结构。
• 把每个方法当孤立公式记忆。
• 忽视模型之间可转换关系。
• 先跑模型再定义研究问题。

✅ 本章实操清单

• 先确定结局变量类型。
• 明确是否存在配对/聚类结构。
• 预先规划单因素与多因素路径。
• 统一报告效应量和不确定性指标。

📝 课后思考题

• 你的课题能否用“同一框架”解释多步分析？
• 当前选型依据是问题需求还是个人习惯？
• 若更换结局定义，方法树会如何变化？