技能简介
很多人会做单一的 KM 曲线或 Cox 回归,但真正难的是把终点定义、删失处理、调整模型和性能评估组织成一套可汇报、可投稿的流程。第 23 期就是解决这个问题。
传统方式通常需要 半天到1天,而把流程说清楚后,AI 辅助可以在 约20分钟 内先跑出第一轮可汇报结果。
🧭 开始前先确认这 4 件事
终点和随访时间定义先固定
先说清楚事件发生时间、删失规则和分析窗口,后续 KM 与 Cox 结果才有可比性。
协变量与分层逻辑要提前约束
年龄、性别、BMI 等常规协变量,以及生物标志物分层阈值最好一开始就说明。
缺失值和变量编码要先处理
把连续变量、分类变量和缺失处理方法先统一,不然后面模型结果会反复变化。
性能评估不能等审稿人追问
C-index、时间依赖 AUC 和 Brier score 最好在第一轮分析就一起准备。
📦 一轮像样输出至少应交付这 4 样
可复现的 survival 分析表
包含时间、事件、分组和协变量,是所有后续模型和图表的共用入口。
Kaplan–Meier 曲线与 log-rank 结果
提供最直观的分层生存差异展示。
多变量 Cox 回归表和森林图
同时交付 HR、95% CI 和可直接放文中的图形结果。
模型性能指标摘要
把 C-index、时间依赖 AUC 和 Brier score 收成一页便于 Results 段引用。
💡 适用场景
心衰或心血管预后分析
适合用 biomarker、治疗分组或临床分层去比较 6–12 个月结局。
肿瘤生存结局补图
从单纯生存曲线扩展到调整模型和性能指标,更接近正式投稿要求。
生物标志物分层
需要回答“高低组是否分得开”以及“调整协变量后是否仍独立相关”时尤其有用。
审稿意见补充分析
当 reviewer 追问时间依赖 AUC 或模型性能时,可以快速补一轮完整输出。
⚙️ 核心实操流程
先把随访数据整理成 survival 格式
你第一步要解决的,不是模型。 是时间和事件到底怎么定义。 分析表已经被整理好了,哪些是删失、哪些是真正终点,一眼就能看懂
读取这个临床队列数据集, 识别随访时间字段、终点事件字段和协变量, 完成缺失值处理与变量编码, 输出可用于 survival analysis 的分析表。 可以调用agent teams进行工作,记得使用我自己用户级别的scientific skills[/Users/angus/.claude/skills],如果没有输入数据的话,你自己生成一个示例演示的
先看 Kaplan-Meier 曲线
你先别急着上多变量模型。 先把最直观的 KM 曲线拉出来。 高低风险组分得很清楚,连 log-rank 的结果都一起给你写好了
调用 `scikit-survival`: 按 NT-proBNP 高低分组, 绘制 1 年复合终点的 Kaplan-Meier 曲线, 返回 log-rank P 值和各组事件数。 可以调用agent teams进行工作,记得使用我自己用户级别的scientific skills[/Users/angus/.claude/skills],如果没有输入数据的话,你自己生成一个示例演示的
多变量 Cox 回归和森林图一起跑
第二关就是审稿人最爱问的多变量分析。 你把协变量一说清楚,它就直接把 HR、95% CI 和森林图一起整理出来。 结果区最硬的一张图,直接落地
继续进行多变量 Cox 回归: 纳入年龄、性别、BMI、NT-proBNP、eGFR、LVEF, 输出 HR、95% CI、P 值, 并生成论文风格森林图。 可以调用agent teams进行工作,记得使用我自己用户级别的scientific skills[/Users/angus/.claude/skills],如果没有输入数据的话,你自己生成一个示例演示的
把模型性能指标补齐
真正拉开差距的,是你连性能评估都一起补齐了。 C-index、时间依赖 AUC、Brier score 一出, 自己拿到的已经不只是“跑了个 Cox”,而是一套能写进论文的 survival package
对刚才的 survival model 进行性能评估: - 计算 C-index - 绘制时间依赖 AUC 曲线 - 给出 6 个月和 12 个月的 Brier score 并生成一段适合 Results 部分的文字总结。 可以调用agent teams进行工作,记得使用我自己用户级别的scientific skills[/Users/angus/.claude/skills],如果没有输入数据的话,你自己生成一个示例演示的
建议录制的关键画面
- 原始随访数据表
- survival 分析表整理过程
- Kaplan-Meier 曲线生成
- Cox 回归结果表
- 论文风格森林图
- 时间依赖 AUC 图
建议准备的关键截图
- KM 曲线成品图
- 多变量 Cox 结果表
- 森林图
- 时间依赖 AUC 图
🧯 最常见的 4 类翻车点
终点定义和删失规则混乱
如果事件和删失规则没统一,后续所有曲线和 HR 都会失去解释基础。
只展示 KM 曲线,不做调整模型
分层曲线只能说明粗差异,正式论文通常还需要多变量 Cox。
只给 P 值,不给效应量
缺少 HR、95% CI 和方向性信息会让结果无法进入正式 Results 段。
忽略性能评估与稳定性
只跑出一个 Cox 模型但不报告 C-index、AUC 或 Brier score,往往经不起追问。
🔗 相关技能
💡 代码包内含 README.md,说明目录结构、主要文件与使用建议。解压后即可继续整理或二次演示。