第15章相关与一致性分析

📘 原书正文提炼（OCR页 215-216）

原书从协方差推到相关系数，核心直觉是：看两个变量偏离各自均值时是否“同向移动”。同向越一致，线性相关越强。

相关分析回答的是“是否同向变化”，而一致性分析回答的是“测量值是否可互换”。两者问题不同，方法不能混用。

书中提到伪相关案例，提醒我们：看见高r值并不代表存在真实机制，更不代表因果关系成立。

🔍 深入讲解（第三次扩写）

Pearson相关适合线性、近似正态且受离群点影响明显；Spearman相关对秩次更稳健。先看散点图，再决定相关系数类型，是基本流程。

新旧检测方法比较时，仅报告r值远远不够。即使r很高，也可能存在系统偏倚，因此需补充Bland-Altman或Kappa等一致性指标。

临床预测研究里，变量相关性高可能引发多重共线性，影响回归系数稳定性，需结合VIF或降维方法处理。

相关分析应同时报告方向、强度、区间和图形证据，避免把一个数字当成完整故事。

🧩 概念拆解与方法边界

协方差：衡量两个变量联合偏离方向。
相关系数：协方差标准化后的无量纲强度指标。
一致性：两种测量方法结果是否可互换使用。

🏥 医学科研落地场景

• 生物标志物与临床评分关系分析先画散点图再选r。
• 设备替代研究需同时做相关与一致性双分析。
• 多变量建模前先筛查高度相关变量，防止共线性。

🧪 小例题（本章最短实战）

比较新旧检测法时先做相关，再做一致性（Bland-Altman）评估是否可互换。

💻 R 最短复现片段

set.seed(115)
x <- rnorm(120, 85, 11)
y <- x + rnorm(120, 0.8, 5)
cor.test(x, y, method="pearson")
mean_diff <- mean(y-x); sd_diff <- sd(y-x)
loa <- c(mean_diff - 1.96*sd_diff, mean_diff + 1.96*sd_diff)
c(mean_diff = mean_diff, loa_low = loa[1], loa_high = loa[2])

📌 R结果解释标准模板

• 数据概况：方法学比较应同时给相关与一致性指标。
• 核心结果：报告 r 值及 Bland-Altman 偏倚与一致性界限。
• 解释句式：'虽相关性较高，但一致性界限提示两方法可/不可直接互换。'

🛠️ 常见报错排查（R运行失败时怎么改）

• 报错 `object not found`：先运行完整代码块（含 `set.seed`、`data.frame`），不要只运行最后两行模型代码。
• 报错 `could not find function`：确认函数来源包是否已安装并加载；优先执行 `install.packages('包名')` 后再 `library(包名)`。
• 报错 `non-numeric argument`：检查变量类型，必要时用 `str(dat)` 查看并将字符变量转为数值或因子。
• 报错 `contrasts can be applied only to factors`：分组变量先转因子，例如 `dat$group <- as.factor(dat$group)`。
• 报错 `NA/NaN/Inf in ...`：先清理缺失或无穷值，如 `dat <- na.omit(dat)`，并排查除零与非法变换。
• 结果与页面示例不完全一致：先确认 R 版本与包版本，再完整重跑代码块；模拟数据场景下以“方向与解释框架一致”为主。

🖱️ SPSS 最短复现片段

相关分析输出Pearson；再计算差值变量并做均值±1.96SD界限。

CORRELATIONS /VARIABLES=x y /PRINT=TWOTAIL.
COMPUTE diff = y - x.
DESCRIPTIVES VARIABLES=diff.

🧾 论文/汇报可直接套用

结果句：'两指标呈中等正相关（r=0.56，95%CI 0.42~0.67），但一致性分析显示仍存在系统偏差。'

⚠️ 本章高发误区

• 把相关当因果解释。
• 只报r值不展示散点结构。
• 方法替代研究只做相关不做一致性。
• 忽视离群点对相关系数的扭曲。

✅ 本章实操清单

• 先画散点图评估线性关系。
• 按分布与稳健性选择Pearson/Spearman。
• 方法学比较补充一致性指标。
• 解释时明确“相关≠因果”。

📝 课后思考题

• 你的高相关是否可能来自共同趋势或混杂？
• 若删去离群点，r值变化有多大？
• 研究问题到底是“相关”还是“可替代”？