第3章概率分布：郭靖内力能撑多久

📘 原书正文提炼（OCR页 27-29）

原书用“郭靖内力消耗”把抽象分布讲得很直观：累计消耗曲线对应累积分布思想，消耗速度曲线对应概率密度（或变化率）思想。

同样的总量，不同的消耗路径会产生完全不同的曲线形态。统计里“结果一样但机制不同”的情况非常常见，必须把过程变量也纳入解释。

从单一模式到多模式切换，图形告诉我们：分布不是死记定义，而是数据生成机制的可视化表达。

🔍 深入讲解（第三次扩写）

很多同学把“分布”理解成一张图，其实分布回答的是三个问题：取值在哪里、概率如何分配、尾部风险多大。临床上这对应“常见值、极端值、异常值处理”。

累积分布函数（CDF）适合回答阈值问题：例如“某指标低于临界值的概率有多大”；密度或频率形态更适合回答结构问题：例如“数据是否双峰，是否存在亚群体”。

本章故事还暗示了时间序列思维：同一总消耗可由不同阶段速度组成。医学监测中，平均值相同的两名患者，病程波动模式可能完全不同，风险也不同。

因此读图时不能只盯中心趋势，要同时看斜率变化、尾部拉长、局部聚集，这些细节往往决定后续模型是否需要分层、变换或非参数方法。

🧩 概念拆解与方法边界

累计视角：强调“到某阈值为止”的概率，适合决策阈值判断。
密度视角：强调单位区间的集中程度，适合观察分布形态。
生成机制：分布形态反映过程，不同机制可能产生相同均值。

🏥 医学科研落地场景

• 药代动力学里同时看累计暴露量（AUC）与浓度变化速度。
• 住院天数分析既看中位数，也看长尾患者比例。
• 术后恢复指标可分阶段建模，而不只看总均值变化。

🧪 小例题（本章最短实战）

住院天数常见右偏分布，先画直方图与密度图，再决定是否直接用均值比较或改用非参数方法。

💻 R 最短复现片段

set.seed(103)
los <- rgamma(200, shape = 2, rate = .15)
hist(los, breaks=20, col="#cbd5e1")
plot(density(los), lwd=2)
c(mean = mean(los), median = median(los), iqr = IQR(los))

📌 R结果解释标准模板

• 数据概况：los 呈偏态时优先报告中位数(IQR)，均值仅作补充。
• 核心结果：结合直方图与 mean/median 差距判断偏态程度。
• 解释句式：'住院天数分布右偏，中位数(IQR)较能代表典型患者。'

🛠️ 常见报错排查（R运行失败时怎么改）

• 报错 `object not found`：先运行完整代码块（含 `set.seed`、`data.frame`），不要只运行最后两行模型代码。
• 报错 `could not find function`：确认函数来源包是否已安装并加载；优先执行 `install.packages('包名')` 后再 `library(包名)`。
• 报错 `non-numeric argument`：检查变量类型，必要时用 `str(dat)` 查看并将字符变量转为数值或因子。
• 报错 `contrasts can be applied only to factors`：分组变量先转因子，例如 `dat$group <- as.factor(dat$group)`。
• 报错 `NA/NaN/Inf in ...`：先清理缺失或无穷值，如 `dat <- na.omit(dat)`，并排查除零与非法变换。
• 结果与页面示例不完全一致：先确认 R 版本与包版本，再完整重跑代码块；模拟数据场景下以“方向与解释框架一致”为主。

🖱️ SPSS 最短复现片段

图形 > 传统对话框 > 直方图（勾选正态曲线）观察分布偏态。

GRAPH /HISTOGRAM(NORMAL)=los.
EXAMINE VARIABLES=los /PLOT=BOXPLOT HISTOGRAM.

🧾 论文/汇报可直接套用

结果描述句：'在总体水平相近的情况下，各组分布形态与尾部风险存在差异，提示潜在机制并非同质。'

⚠️ 本章高发误区

• 只报均值，忽视分布形状。
• 把累计概率误读为瞬时概率。
• 不看尾部就下“风险低”结论。
• 把双峰数据硬套单峰模型。

✅ 本章实操清单

• 先画直方图/密度图再选方法。
• 补充累计概率或分位数信息。
• 识别并解释极端值来源。
• 必要时按机制做分层分析。

📝 课后思考题

• 你的核心变量是单峰、偏态还是多峰？
• 若只看均值，会掩盖哪些风险群体？
• 是否存在“同均值不同路径”的临床现象？