主讲老师第四十七课:基线资料表的制作
在前面,我们有讲解过一次这个表格的制作,在 TCGA 临床信息清洗部分,这次,我们来介绍一个 R包,快速制作临床基线资料表(tableone.zip)。关于基线资料表,不管是临床文章,还是生信文章里,基本都会出现,甚至是基础文章里,用点组织样本以后,都会放一下这个表格。在之前,对于Table 1 的统计分析有一个经典的统计软件,SPSS 软件,不管掌握得如何,都能上来耍一耍,对于如何使用 SPSS 绘制基线资料表的方法,某学习平台也开设了专门的单元讲解课程,手把手拆解每个步骤,这里呢,对这一方法进行一个简单的回顾相信对于这块内容,大家肯定有一定的印象,通过对连续变量和分类变量进行统计分析,逐个将结果填入到预先设计好的表格里。虽然方法简单易懂,但是相对耗时,耗力,而且极易出错,下面,我们主要来看一下如何使用 R 来绘制 Table 1。
首先,介绍一下本次分析所需要用到的 R 包 tableone ,人如其名,该包可以非常简单又快捷的解决文章 Table 1 的统计分析和绘制问题,下面,我们来看下 tableone 的使用方法
1.安装和加载 R 包
关于包的安装,十分简单,直接使用 install.packages 命令即可完成。
2.读取数据
将清洗好的临床数据读取进来,此次分析的数据变量包括 age,gender,grade,stage, T,M,N,Score,Albumin,以及 Group。
3.生成所有患者的统计结果
接下来,就进入了统计分析过程,我们先查看一下数据的类型
可以看到,数据集一共包含了 317 位患者,而且系统将所有的变量都默认为连续型变量。
然后,我们使用 CreateTableOne() 函数来生成初步的表格。
此时,由于还没有对变量的类型进行调整,在生成的表格中,所有变量的结果都是由平均值(mean)和标准差(SD)两块组成。
4.设定变量信息
接下来,我们需要根据变量的类型,来对输出结果进行一个调整,我们需要对要分析的变量名称和变量类型进行手动设置,包括分类变量和非正态分布的变量。
根据变量对应的数据类型,进行设置
5.生成 All patients 的基线资料
根据上面指定的变量类型,分别指定不同的参数。
在表格中,所有呈正态分布的连续变量用平均值和标准差来表示,非正态分布的连续变量通过中位数和四分位数表示,而分类变量则通过百分比(%)来表示
6.分组统计
计算完所有的患者后,接下来需要对两个组中的患者分别进行统计分析。
需要注意的是,在分析中过程中,系统默认两组间连续变量使用 t 检验,分类变量使用卡方检验并进行连续性校正,如果卡方检验需要 fisher 精确检验,可以通过参数 exact 进行设置。随后,我们需要把前面生成的 All Patient 组合进来通过修改 addOverall 参数即可进行合并。
到此,整个表格绘制都已经完成了,最后就是结果的整理与输出
7.输出结果
这里呢,提供两种方法给大家,供大家自行选择。
方法一:复制黏贴,进行整理
随后,将其复制黏贴到表格相应的位置即可
方法二:直接通过 R 输出表格结果
可以看到,在当前目录下多了一个名为 TABLE1.csv 的表格这样,文章开篇的第一张表格就快速的制作完成了,比起 spss 软件,简便了很多