← 返回白话统计学目录
第3章 / 共16章

第3章 概率分布:郭靖内力能撑多久

分布函数看“累计到哪儿”,密度函数看“变化多快”。

📘 原书正文提炼(OCR页 27-29)

原书用“郭靖内力消耗”把抽象分布讲得很直观:累计消耗曲线对应累积分布思想,消耗速度曲线对应概率密度(或变化率)思想。

同样的总量,不同的消耗路径会产生完全不同的曲线形态。统计里“结果一样但机制不同”的情况非常常见,必须把过程变量也纳入解释。

从单一模式到多模式切换,图形告诉我们:分布不是死记定义,而是数据生成机制的可视化表达。

🔍 深入讲解(第三次扩写)

很多同学把“分布”理解成一张图,其实分布回答的是三个问题:取值在哪里、概率如何分配、尾部风险多大。临床上这对应“常见值、极端值、异常值处理”。

累积分布函数(CDF)适合回答阈值问题:例如“某指标低于临界值的概率有多大”;密度或频率形态更适合回答结构问题:例如“数据是否双峰,是否存在亚群体”。

本章故事还暗示了时间序列思维:同一总消耗可由不同阶段速度组成。医学监测中,平均值相同的两名患者,病程波动模式可能完全不同,风险也不同。

因此读图时不能只盯中心趋势,要同时看斜率变化、尾部拉长、局部聚集,这些细节往往决定后续模型是否需要分层、变换或非参数方法。

🧩 概念拆解与方法边界

🏥 医学科研落地场景

🧪 小例题(本章最短实战)

住院天数常见右偏分布,先画直方图与密度图,再决定是否直接用均值比较或改用非参数方法。

💻 R 最短复现片段

set.seed(103)
los <- rgamma(200, shape = 2, rate = .15)
hist(los, breaks=20, col="#cbd5e1")
plot(density(los), lwd=2)
c(mean = mean(los), median = median(los), iqr = IQR(los))

📌 R结果解释标准模板

🛠️ 常见报错排查(R运行失败时怎么改)

🖱️ SPSS 最短复现片段

图形 > 传统对话框 > 直方图(勾选正态曲线)观察分布偏态。

GRAPH /HISTOGRAM(NORMAL)=los.
EXAMINE VARIABLES=los /PLOT=BOXPLOT HISTOGRAM.

🧾 论文/汇报可直接套用

结果描述句:'在总体水平相近的情况下,各组分布形态与尾部风险存在差异,提示潜在机制并非同质。'

⚠️ 本章高发误区

✅ 本章实操清单

📝 课后思考题