第8章参数估计：一叶落而知秋

📘 原书正文提炼（OCR页 96-97）

原书把参数估计分成点估计与区间估计：点估计给一个最可能值，区间估计给不确定范围。点值直观但脆弱，区间更符合科研表达。

最小二乘估计用于线性回归时，目标是让观测值与模型预测值之间的误差平方和最小，从而得到“最贴近数据”的参数。

估计值永远是样本条件下的近似，而非总体真值本身，必须连同误差范围一起解释。

🔍 深入讲解（第三次扩写）

点估计的好处是简洁，但其稳定性依赖样本代表性与样本量。样本稍有偏移，点值就可能明显波动，这也是可重复性问题的重要来源。

最小二乘法之所以常用，是因为它把“拟合好不好”转化为可计算的优化目标；但它也依赖线性关系、误差结构等前提，不满足时需改用更稳健方案。

医学论文中常见“只报OR=1.35”而不报区间，这会让读者无法判断估计精度。规范做法是点值+区间+模型假设检查。

估计阶段建议做敏感性分析：更换变量形式、剔除影响点、替换协变量组合，观察参数方向与量级是否稳定。

🧩 概念拆解与方法边界

点估计：给出参数的单值近似，便于快速比较。
区间估计：给出参数可能范围，体现不确定性。
最小二乘：通过最小化误差平方和求得回归参数。

🏥 医学科研落地场景

• 风险预测模型中同步报告β系数和95%CI。
• 温度-发病率关系可先线性拟合，再评估非线性可能。
• 病例对照研究应在调整混杂后报告调整OR区间。

🧪 小例题（本章最短实战）

估计“体重与收缩压关系”的回归系数，同时给出95%CI，避免只报单一β值。

💻 R 最短复现片段

set.seed(108)
wt <- rnorm(160, 65, 9)
dat <- data.frame(
  wt = rnorm(160, 65, 9),
  sbp = 95 + 0.8*wt + rnorm(160,0,8)
)
fit <- lm(sbp ~ wt, data=dat)
summary(fit); confint(fit)

📌 R结果解释标准模板

• 数据概况：连续结局 sbp 与连续自变量 wt，采用线性回归。
• 核心结果：报告 β 系数、95%CI 与模型 P 值。
• 解释句式：'wt 每增加1单位，sbp 平均变化 β 单位（95%CI ...）。'

🛠️ 常见报错排查（R运行失败时怎么改）

• 报错 `object not found`：先运行完整代码块（含 `set.seed`、`data.frame`），不要只运行最后两行模型代码。
• 报错 `could not find function`：确认函数来源包是否已安装并加载；优先执行 `install.packages('包名')` 后再 `library(包名)`。
• 报错 `non-numeric argument`：检查变量类型，必要时用 `str(dat)` 查看并将字符变量转为数值或因子。
• 报错 `contrasts can be applied only to factors`：分组变量先转因子，例如 `dat$group <- as.factor(dat$group)`。
• 报错 `NA/NaN/Inf in ...`：先清理缺失或无穷值，如 `dat <- na.omit(dat)`，并排查除零与非法变换。
• 结果与页面示例不完全一致：先确认 R 版本与包版本，再完整重跑代码块；模拟数据场景下以“方向与解释框架一致”为主。

🖱️ SPSS 最短复现片段

分析 > 回归 > 线性；勾选系数与置信区间输出。

REGRESSION
/DEPENDENT sbp
/METHOD=ENTER wt
/STATISTICS COEFF CI(95).

🧾 论文/汇报可直接套用

结果写作句：'在调整年龄、性别及基线指标后，暴露变量与结局呈正向关联（β=0.42，95%CI 0.18~0.66）。'

⚠️ 本章高发误区

• 只报告点估计，不报告区间。
• 把估计值当确定真值。
• 忽视模型假设就解释参数。
• 不做稳健性/敏感性分析。

✅ 本章实操清单

• 报告点估计与95%CI。
• 说明估计方法与建模前提。
• 检查异常值与高杠杆点影响。
• 补充至少一种敏感性分析。

📝 课后思考题

• 你的估计值在不同建模策略下是否稳定？
• 若样本量减半，区间会变多宽？
• 你是否向读者清晰传达了“估计不等于真值”？