第 53 课：LASSO Cox 模型 - PDF深度整合批次1

主讲老师第五十三课：LASSO Cox 模型

首先来简单介绍一下背景，随着大数据时代的到来，高通量数据井喷状出现，数据呈现高维度的特点，无论是在生信研究，还是临床研究中，面对着浩瀚的数据，如何挑出其中最具代表性的特征，拟合与过拟合的选择，成了整个分析之初就较为关键的一个话题。大家肯定在生信文章中见过这样的结果图这个结果使用的就是 LASSO 回归，全称：最小化绝对收缩和选择算子。我们常用的LASSO 回归方法属于正则化的其中一种，通过正则化，引入收缩惩罚，对系数进行限制，更有甚者可以将系数缩减到 0，正则化主要包括岭回归，LASSO（LASSO.zip），以及弹性网络三种。相比较岭回归，LASSO 使用 L1-norm，也就是说所有特征权重的绝对值之和，这在一定程度上极大地提高了模型的解释性，下面，我们一起来看一下，如何构建 LASSO Cox回归模型。

1.引用 R 包

在此，我们使用 glmnet 包来构建模型，glmnet 包可用于构建 LASSO 回归，弹性网络等广义线性模型。

2.读取文件

在该数据集中，主要包括患者信息，生存时间（futime），生存状态（fustat），以及相关基因的表达情况，当然，在此，我们只选取了数据集中一部分基因的表达，接下来，我们将通过筛选，对高维度的数据进行降维，以获得预后相关的基因特征，进而构建预后相关的预测模型。

3.构建 LASSO Cox 回归模型

在分析前，为了保证模型的可重复性，我们对其设定了随机种子

在参数 family 中选择 cox 方法，并将参数 maxit 设为 1000，表示拟合次数。

该图中展示了，在模型建立过程中，在不同的λ状态下入选特征的数量和系数，而且，随着λ的增大，入选的特征参数随之减小，而系数绝对值却随之增大，同时，有相当部分的系数一直接近于 0，直到最后一个特征加入模型。

接下来，对模型特征选择过程进行可视化。

在该结果中，随着特征数量的不断选择与模拟，最终得到两个模型，分别为最佳模型（左侧虚线）和最简模型（右侧虚线），其中，上方的数值代表该λ值时纳入模型的特征数量。

4.输出预测模型的相关系数与 riskScore

接下来，我们选择最佳模型进行后续分析。

4.1 输出相关系数

提取入组特征相对应的惩罚系数。

最终，我们得到了纳入预测模型的特征基因和其相对应的系数

4.2 计算 riskScore

随后，我们进一步计算模型的最终得分。

通过将每个基因的表达情况与其对应的系数相乘，最后相加得到最终的风险评分（riskScore），并且，以所有患者的中位 riskScore 值为临界值，将患者分成高风险和低风险两组。

5.绘制散点分布图

接下来，通过使用 ggpubr 包，绘制散点图来对不同生存状态下患者的风险评分进行可视化展示结果展示了不同生存状态下患者的 riskScore 值，其中 0 代表存活，1 代表死亡，我们可以发现，与存活的患者相比，死亡患者的 riskScore 值显著升高，而且其 P 值小于 0.001。

6.判断预测结果的准确性

接着，使用 ROC 曲线，来判断模型的准确性，在 ROC 曲线中，通过患者的 riskScore来预测其生存结局模型的曲线下面积（area under curve， AUC）为 0.687，表示该模型的预测能力相对一般，当然，在我们自己的分析中，可以调整随机种子，以获得不同的模型来观察预测效能，并选取一个最佳模型。