← 返回白话统计学目录
第4章 / 共16章

第4章 统计资料类型的思考

变量类型判错,后续模型几乎都会跑偏。

📘 原书正文提炼(OCR页 50-52)

原书把变量分为连续、离散、二分类、无序多分类、有序多分类,并强调:这不是概念游戏,而是方法选择的入口条件。

最容易混淆的是“计数资料”和“分类资料”。计数资料有单位、值本身有数量意义;分类资料是类别标签,数字编码只是符号,不是数值大小。

不同变量类型对应不同模型族:计数资料常见 Poisson/负二项回归,分类资料常见 Logistic/多项Logistic,不可随意互换。

🔍 深入讲解(第三次扩写)

在医学论文中,变量误分类非常高发。比如把疼痛评分(有序)当连续变量直接做线性回归,或者把咳嗽次数(计数)当二分类粗暴截断,都会损失信息。

变量类型还决定汇总方式:连续变量常用均值±SD或中位数(IQR);分类变量用频数(%)。若汇总方式与变量属性不匹配,读者会误判效应大小。

原书举的“是否咳嗽”和“咳嗽次数”对比很关键:同一临床问题,结局定义不同,模型和解释完全不同。研究者应先问“我要回答哪个问题”,再定义变量。

当变量存在层级或过度离散时,应考虑更合适模型(如负二项、零膨胀模型),而不是强行沿用熟悉的检验。

🧩 概念拆解与方法边界

🏥 医学科研落地场景

🧪 小例题(本章最短实战)

咳嗽“是否发生”与“发生次数”属于不同变量类型:前者可做Logistic,后者优先考虑Poisson/负二项。

💻 R 最短复现片段

set.seed(104)
dat <- data.frame(
  cough_yes = rbinom(120,1,.35),
  cough_n = rpois(120, lambda=2.4),
  drug = rbinom(120,1,.5)
)
fit <- glm(cough_yes ~ drug, family=binomial, data=dat)
summary(fit)
exp(cbind(OR = coef(fit), confint.default(fit)))

📌 R结果解释标准模板

🛠️ 常见报错排查(R运行失败时怎么改)

🖱️ SPSS 最短复现片段

分析 > 回归 > 二项Logistic(因变量=是否咳嗽)。

LOGISTIC REGRESSION VARIABLES cough_yes
/METHOD=ENTER drug
/CRITERIA=PIN(.05) POUT(.10).

🧾 论文/汇报可直接套用

方法学句:'根据结局变量的数据属性(计数型),本研究采用负二项回归估计组间差异,并报告发生率比及95%CI。'

⚠️ 本章高发误区

✅ 本章实操清单

📝 课后思考题