第 47 课：基线资料表的制作 - PDF深度整合批次1

主讲老师第四十七课：基线资料表的制作

在前面，我们有讲解过一次这个表格的制作，在 TCGA 临床信息清洗部分，这次，我们来介绍一个 R包，快速制作临床基线资料表（tableone.zip）。关于基线资料表，不管是临床文章，还是生信文章里，基本都会出现，甚至是基础文章里，用点组织样本以后，都会放一下这个表格。在之前，对于Table 1 的统计分析有一个经典的统计软件，SPSS 软件，不管掌握得如何，都能上来耍一耍，对于如何使用 SPSS 绘制基线资料表的方法，某学习平台也开设了专门的单元讲解课程，手把手拆解每个步骤，这里呢，对这一方法进行一个简单的回顾相信对于这块内容，大家肯定有一定的印象，通过对连续变量和分类变量进行统计分析，逐个将结果填入到预先设计好的表格里。虽然方法简单易懂，但是相对耗时，耗力，而且极易出错，下面，我们主要来看一下如何使用 R 来绘制 Table 1。

首先，介绍一下本次分析所需要用到的 R 包 tableone ，人如其名，该包可以非常简单又快捷的解决文章 Table 1 的统计分析和绘制问题，下面，我们来看下 tableone 的使用方法

1.安装和加载 R 包

关于包的安装，十分简单，直接使用 install.packages 命令即可完成。

2.读取数据

将清洗好的临床数据读取进来，此次分析的数据变量包括 age，gender，grade，stage， T，M，N，Score，Albumin，以及 Group。

3.生成所有患者的统计结果

接下来，就进入了统计分析过程，我们先查看一下数据的类型

可以看到，数据集一共包含了 317 位患者，而且系统将所有的变量都默认为连续型变量。

然后，我们使用 CreateTableOne() 函数来生成初步的表格。

此时，由于还没有对变量的类型进行调整，在生成的表格中，所有变量的结果都是由平均值（mean）和标准差（SD）两块组成。

4.设定变量信息

接下来，我们需要根据变量的类型，来对输出结果进行一个调整，我们需要对要分析的变量名称和变量类型进行手动设置，包括分类变量和非正态分布的变量。

根据变量对应的数据类型，进行设置

5.生成 All patients 的基线资料

根据上面指定的变量类型，分别指定不同的参数。

在表格中，所有呈正态分布的连续变量用平均值和标准差来表示，非正态分布的连续变量通过中位数和四分位数表示，而分类变量则通过百分比（%）来表示

6.分组统计

计算完所有的患者后，接下来需要对两个组中的患者分别进行统计分析。

需要注意的是，在分析中过程中，系统默认两组间连续变量使用 t 检验，分类变量使用卡方检验并进行连续性校正，如果卡方检验需要 fisher 精确检验，可以通过参数 exact 进行设置。随后，我们需要把前面生成的 All Patient 组合进来通过修改 addOverall 参数即可进行合并。

到此，整个表格绘制都已经完成了，最后就是结果的整理与输出

7.输出结果

这里呢，提供两种方法给大家，供大家自行选择。

方法一：复制黏贴，进行整理

随后，将其复制黏贴到表格相应的位置即可

方法二：直接通过 R 输出表格结果

可以看到，在当前目录下多了一个名为 TABLE1.csv 的表格这样，文章开篇的第一张表格就快速的制作完成了，比起 spss 软件，简便了很多