📘 原书正文提炼(OCR页 68-70)
原书用“被平均”案例说明:均值相同的两组数据,分布和中位数可能完全不同。只报均值会掩盖结构差异。
方差与标准差不是可有可无的附属项,而是解释不确定性的核心指标。没有离散度信息,中心值几乎无法正确解读。
图表的责任不是“好看”,而是让读者快速识别分布形态、异常值和组间可比性。
🔍 深入讲解(第三次扩写)
均值适合近似对称分布;明显偏态时,中位数与四分位数更能代表“典型个体”。临床费用、住院时长、炎症指标常见偏态,若只报均值易误导决策。
离均差平方和、方差、标准差本质是一条链:先衡量偏离,再标准化到可比较尺度。方差常用于模型推断,标准差更便于日常解释。
展示时应做到“图表与统计口径一致”:如果采用非参数检验,配图也应优先展示中位数和分位分布,而不是只给柱状图均值±误差条。
研究汇报中建议至少包含:样本规模、中心趋势、离散度、异常值处理策略。四项齐全,读者才有能力复核结果可信度。
🧩 概念拆解与方法边界
- 中心趋势:回答“数据大致在哪儿”,但不能替代结构信息。
- 离散度:回答“波动有多大”,直接影响效应解释。
- 可视化一致性:图表口径应与检验方法和叙述一致。
🏥 医学科研落地场景
- • 基线表中连续变量按分布特征分开报告(均值±SD或中位数[IQR])。
- • 病例组/对照组比较时,优先用箱线图或小提琴图展示分布。
- • 教学汇报中加入异常值判定规则,避免“人为删点”争议。
🧪 小例题(本章最短实战)
同一均值可能对应完全不同结构:比较两组实验室指标时,先同时报告均值±SD与中位数(IQR)。
💻 R 最短复现片段
set.seed(105)
x <- c(rnorm(90,10,2), 35)
mean(x); sd(x)
median(x); IQR(x)
📌 R结果解释标准模板
- • 数据概况:包含异常值时,均值会被拉偏,需补充中位数(IQR)。
- • 核心结果:并列报告 mean±SD 与 median(IQR)。
- • 解释句式:'在存在离群值时,本研究优先采用中位数(IQR)描述中心位置。'
🛠️ 常见报错排查(R运行失败时怎么改)
- • 报错 `object not found`:先运行完整代码块(含 `set.seed`、`data.frame`),不要只运行最后两行模型代码。
- • 报错 `could not find function`:确认函数来源包是否已安装并加载;优先执行 `install.packages('包名')` 后再 `library(包名)`。
- • 报错 `non-numeric argument`:检查变量类型,必要时用 `str(dat)` 查看并将字符变量转为数值或因子。
- • 报错 `contrasts can be applied only to factors`:分组变量先转因子,例如 `dat$group <- as.factor(dat$group)`。
- • 报错 `NA/NaN/Inf in ...`:先清理缺失或无穷值,如 `dat <- na.omit(dat)`,并排查除零与非法变换。
- • 结果与页面示例不完全一致:先确认 R 版本与包版本,再完整重跑代码块;模拟数据场景下以“方向与解释框架一致”为主。
🖱️ SPSS 最短复现片段
分析 > 描述统计 > 探索(同时输出均值、中位数、箱线图)。
EXAMINE VARIABLES=x
/STATISTICS=DESCRIPTIVES
/PLOT=BOXPLOT HISTOGRAM.
🧾 论文/汇报可直接套用
结果句:'该指标呈右偏分布,故采用中位数(IQR)描述;组间比较使用Wilcoxon秩和检验。'
⚠️ 本章高发误区
- • 偏态数据仍机械报告均值±SD。
- • 只给柱状图,不展示分布细节。
- • 不说明异常值处理规则。
- • 展示口径与检验方法不一致。
✅ 本章实操清单
- • 先判断分布再决定描述指标。
- • 报告中心值时同步报告离散度。
- • 图表附带样本量与缺失值信息。
- • 注明异常值和数据变换策略。
📝 课后思考题
- • 你最常报告的变量是否偏态?
- • 你的图表能否支持读者复核主要结论?
- • 是否存在“图很好看但信息不足”的页面?