第5章如何正确展示你的数据

📘 原书正文提炼（OCR页 68-70）

原书用“被平均”案例说明：均值相同的两组数据，分布和中位数可能完全不同。只报均值会掩盖结构差异。

方差与标准差不是可有可无的附属项，而是解释不确定性的核心指标。没有离散度信息，中心值几乎无法正确解读。

图表的责任不是“好看”，而是让读者快速识别分布形态、异常值和组间可比性。

均值适合近似对称分布；明显偏态时，中位数与四分位数更能代表“典型个体”。临床费用、住院时长、炎症指标常见偏态，若只报均值易误导决策。

离均差平方和、方差、标准差本质是一条链：先衡量偏离，再标准化到可比较尺度。方差常用于模型推断，标准差更便于日常解释。

展示时应做到“图表与统计口径一致”：如果采用非参数检验，配图也应优先展示中位数和分位分布，而不是只给柱状图均值±误差条。

研究汇报中建议至少包含：样本规模、中心趋势、离散度、异常值处理策略。四项齐全，读者才有能力复核结果可信度。

同一均值可能对应完全不同结构：比较两组实验室指标时，先同时报告均值±SD与中位数(IQR)。

set.seed(105)
x <- c(rnorm(90,10,2), 35)
mean(x); sd(x)
median(x); IQR(x)

• 报错 `object not found`：先运行完整代码块（含 `set.seed`、`data.frame`），不要只运行最后两行模型代码。
• 报错 `could not find function`：确认函数来源包是否已安装并加载；优先执行 `install.packages('包名')` 后再 `library(包名)`。
• 报错 `non-numeric argument`：检查变量类型，必要时用 `str(dat)` 查看并将字符变量转为数值或因子。
• 报错 `contrasts can be applied only to factors`：分组变量先转因子，例如 `dat$group <- as.factor(dat$group)`。
• 报错 `NA/NaN/Inf in ...`：先清理缺失或无穷值，如 `dat <- na.omit(dat)`，并排查除零与非法变换。
• 结果与页面示例不完全一致：先确认 R 版本与包版本，再完整重跑代码块；模拟数据场景下以“方向与解释框架一致”为主。

分析 > 描述统计 > 探索（同时输出均值、中位数、箱线图）。

EXAMINE VARIABLES=x
/STATISTICS=DESCRIPTIVES
/PLOT=BOXPLOT HISTOGRAM.

结果句：'该指标呈右偏分布，故采用中位数（IQR）描述；组间比较使用Wilcoxon秩和检验。'