R语言|4. 轻松绘制临床基线表Table 1 临床三线表绘制
R语言|4. 轻松绘制临床基线表Table 1
小毛竹 一只勤奋的科研喵 2021-01-29 11:00
Table 1是总结研究样本中变量组成及变量间关系的一张表。
R语言可以通过几行代码快速生成Table 1。
本期用到的是“tableone”,是我制作Table 1时最喜欢用的包,今天分享给大家,觉得有用的小伙伴希望多加点赞转发支持。
目录
一.文献中的Tabl 1
二. tableone包制作Table 1(2列)
三. tableone包制作Table 1(4列)
四. tableone包制作Table 1(5列)
五. tableone其他代码展示
一
文献中的Table 1
图片来自:https://www.jianshu.com/p/3328fd0689f2
连续和分类变量相关性检验详见之前文章:
R语言|2. 连续变量相关性比较 和 R语言|3. 分类变量检验
1-1. 变量名+总人群(两列)
研究目的为“xx疾病的预后因素分析”时常用,即不涉及比较。
这种表只需把握好连续变量为正态还是非正态分布即可。正态分布写均值±标准差,非正态分布写中位数+上下四分位数。
分类变量写数目和百分数。
例:研究某类型乳腺癌的预后,所以Table 1两列
参考文献:Lewis GD,et al. Prognosis of lymphotropic invasive micropapillary breast carcinoma analyzed by using data from the National Cancer Database. Cancer Commun (Lond). 2019 Oct 21;39(1):60.
1-2:变量+某变量分列+p值
研究目的为 “xx变量对预后的比较分析” 时常用。
因涉及比较,所以在Table 1常将用该变量将全部人群分为几类,观察其他变量在这几个分类中是否有差异(p值)。
这种表就涉及到了连续变量和分类变量的相关性检验,这两种检验在R语言|2. 连续变量相关性比较 和 R语言|3. 分类变量检验已有介绍。
下面这篇文章的目的是研究两种病理类型的乳腺癌临床病理特点的比较。Table 1中作者总结了出这两个病理类型在肿瘤位置、组织分级等变量中有何差异
参考文献:Yu JI,et al. Differences in prognostic factors and patterns of failure between invasive micropapillary carcinoma and invasive ductal carcinoma of the breast: matched case-control study. Breast. 2010 Jun;19(3):231-7.
1-3. 变量名+总数+某变量分组+p值
1-1和1-2的综合。可以向读者展示更多细节。通常5列。
文章目的是两种病理类型的乳腺癌临床病理特点的比较。
参考文献:Hashmi AA, et al. Clinicopathologic features of invasive metaplastic and micropapillary breast carcinoma: comparison with invasive ductal carcinoma of breast. BMC Res Notes. 2018 Jul 31;11(1):531.
二
tableone包制作Table 1(2列)
以下数据来自SEER数据库的5000例乳腺癌病例,公众号回复:20210126获得
总结:过程其实就是输入3个条件【指定需要汇报的变量;指定这些变量中的分类变量;指定哪些连续变量是非正态分布】-----构建函数-----输出表格
1
安装R包、数据放入工作目录
#1.加载R包,电脑里若无tableone,去掉下面的
#install.packages("tableone")
library(tableone)
#2.清理运行环境
rm(list = ls())
#3.读入数据
aa<- read.csv('20210126.csv')
2
查看数据构成
#4.查看数据前6行
head(aa)
源数据尽量用英文单词或缩写而非0.1.2.3.4代替。因软件默认识别为连续变量,需要转换,很麻烦。用英文在整理表格时也方便,省时省力。
#5.查看数据数据性质
str(aa)
数据有5000病例;16变量,2连续变量(年龄和时间);14分类变量及它们亚变量的个数和名字。
#6.提取变量的名字
names(aa)
age=年龄,age70=以70岁为界分组的年龄,race=种族,marry=婚姻,t=t分期,n=n分期,tnm=tnm分期,er=雌激素受体,pr=孕激素受体,her2,g=组织分级,sur=手术,rt=放疗,che=化疗,status=死亡否,time=时间
3
连续变量正态性检验
shapiro.test(aa$age)#p>0.05才符合正态分布
shapiro.test(aa$time)#p>0.05才符合正态分布
age和time SW检验p<0.05, 不符合正态性分布,Table1应汇报中位数+四分位数
前面的代码是只是查看数据性质,从第4步开始正式写Table 1代码。
4
输入Table 1的条件
#条件1# myVars的()中输入想要在Table 1出现的变量【英文引号以英文逗号隔开】
myVars <- c("age","age70","race", "marry",
"t", "n", "tnm", "er", "pr",
"g","her2", "sur","rt","che",
"time","status")#16个变量
#条件2# catVars的()内指明上述中哪些是分类变量
catVars <- c("age70","race", "marry",
"t", "n", "tnm", "er", "pr",
"g","her2", "sur","rt","che",
,"status")#14个分类变量
#条件3# tableone包默认输出均数+标准差,所以nonvar的()输入那些连续变量是非正态分布的(输出中位数+四分位数)
nonvar <- c("time","age") # 指定哪些变量是非正态分布变量
5
构建Table 函数
table<- CreateTableOne(vars = myVars, #条件1
factorVars = catVars, #条件2
data = aa, #源数据
addOverall = TRUE) #增加overall列
6
输出结果
table1 <- print(table, #构建的table函数(包括条件1.2)
showAllLevels=TRUE, #显示所有变量
nonnormal = nonvar) #条件3
age和time均汇报为中位数+四分位数,分类变量均汇报为数目加百分数
7
保存至Excel
write.csv(table1, file = "table1.csv")
三
tableone包制作Table 1(4列)
4列的Table 1其实就是在构建table 1时加入了一个变量分列条件而已。
需要注意的是此时应先验证连续变量和分类是哪种检验方法。
详见:R语言|2. 连续变量相关性比较 和R语言|3. 分类变量检验
前面操作1-4不变
library(tableone) #1.加载R包
rm(list = ls()) #2.清理运行环境
aa<- read.csv('20210126.csv') #3.读入数据
head(aa) #4.查看数据前6行
str(aa) #5.查看数据数据性质
names(aa) #6.提取变量的名字
#条件1不变# myVars的()中输入想要在Table 1出现的变量
myVars <- c("age","age70","race","marry",
"t","n", "tnm","er","pr",
"g","her2", "sur","rt","che",
"time","status") #16变量
#条件2不变# catVars的()内指明上述中哪些是分类变量
catVars <- c("age70","race", "marry",
"t", "n", "tnm", "er", "pr",
"g","her2", "sur","rt","che",
,"status")
5
构建Table函数
#构建table 函数,加入条件4,strata = " " 。英文引号内填入需要分列的变量,例如本研究想探索放疗对预后的影响,则为strata = "rt"
table <- CreateTableOne(vars = myVars, #条件1
factorVars = catVars,#条件2
strata = "rt", #条件4
data = aa, #原始数据
);table
#条件3不变#. 指定非正态分布连续变量变量
nonvar <- c("time","age")
#条件5新加入# 假如有T<5变量应使用Fisher精确检验,本文数量大,无需Fisher精确检验
exactvars <- c("a", "b")
#附加细节条件#:
catDigits = 2, contDigits = 3, pDigits = 4,修改连续变量小数位数为2位,分类变量百分比位数为3位,调整小数位数为4位;
6
输出结果
把构建的table+条件1-5+附加细节条件放入print()函数
table1<- print(table, #构建的table函数(带条件1.2.3)
nonnormal = nonvar,#条件4
#exact = exactvars,#条件5
catDigits = 2,contDigits = 3,pDigits = 4, #附加条件
showAllLevels=TRUE, #显示所有变量
quote = FALSE, # 不显示引号
noSpaces = TRUE, # #删除用于对齐的空格
printToggle = TRUE) #展示输出结果
7
保存为Excel
write.csv(table1, file = "table1.csv")
四
tableone包制作Table 1(5列)
制作4列的所有条件不变(1-5+附加条件),在构建table函数时的代码增加一个addOverall = TRUE
5
构建Table函数
table <- CreateTableOne(vars = myVars, #条件1
factorVars = catVars,#条件2
strata = "rt", #条件4
data = aa, #原始数据
addOverall = TRUE);table#条件6加入overall
6
输出Table 1(代码不变)
table1<- print(table, #构建的table函数(带条件1.2.3)
nonnormal = nonvar,#条件4
#exact = exactvars,#条件5
catDigits = 2,contDigits = 3,pDigits = 4, #附加条件
showAllLevels=TRUE, #显示所有变量
quote = FALSE, # 不显示引号
noSpaces = TRUE, # #删除用于对齐的空格
printToggle = TRUE) #展示输出结果
函数CreateTableOne()所以细节条件汇总,即第5步。
5
构建Table函数
table <- CreateTableOne(
vars, #指定哪些变量是Table 1需要汇总的变量
strata,#指定进行分类的变量,不写则只出Overall列
data,# 变量的数据集名称
factorVars,#指定哪些变量为分类变量,指定的变量应是vars参数中的变量
includeNA = FALSE,#为TRUE则将缺失值作为因子处理,仅对分类变量有效
test = TRUE,#默认为TRUE,当有2个或多个组时,自动进行组间比较
testApprox = chisq.test,#默认卡方检验
argsApprox = list(correct = TRUE),# 进行连续校正的chisq.test
testExact = fisher.test,#进行fisher精确检验
argsExact = list(workspace = 2 * 10^5),# 指定fisher.test分配的内存空间
testNormal = oneway.test, # 连续变量为正态分布进行的检验,默认为oneway.test,两组时相当于t检验
argsNormal = list(var.equal = TRUE), # 假设为等方差分析
testNonNormal = kruskal.test,# 默认为Kruskal-Wallis秩和检验
argsNonNormal = list(NULL),#传递给testNonNormal中指定的函数的参数的命名列表
smd = TRUE,#如果为TRUE(如默认值)并且有两个以上的组,则将计算所有成对比较的标准化均值差。
addOverall = FALSE#仅在分组时使用)将整个列添加到表中。Smd和p值计算仅使用分层的列阵进行。
);table
#print()函数细节汇总,即第6步
6
输出Table 1
table1<- print(
x, #CreateTableOne()的 <- 前的名字(x=table)
catDigits = 1, #连续变量小数位1位
contDigits = 2,#分类变量保留2位
pDigits = 3,#p值保留3位
quote = FALSE,#默认值为FALSE。如果为TRUE
#,则包括行名和列名在内的所有内容都用引号引起来,以便您可以轻松地将其复制到Excel。
missing = FALSE,#是否显示丢失的数据信息
explain = TRUE,#显示百分比时是否在变量名称中添加解释,即(%)添加到变量名称中。
printToggle = TRUE,#如果为FALSE,则不输出
test = TRUE,#是否显示p值。默认为TRUE。
smd = FALSE,#是否显示标准化均值差异。默认为FALSE。如果存在多个对比,则显示所有可能的标准化均值差的平均值。
noSpaces = FALSE,#是否删除为对齐而添加的空格。
padColnames = FALSE,#是否用空格填充列名以居中对齐。默认值为FALSE。如果noSpaces = TRUE,则不进行
varLabels = FALSE,#是否用从labelled :: var_label()函数获得的变量标签替换变量名。
format = c("fp", "f", "p", "pf")[1],#默认值为“ fp”频率(百分比)。您也可以选择仅“ f”频率,“仅p”百分比和“ pf”百分比(频率)。
showAllLevels = FALSE,#是否显示所有级别。
cramVars = NULL,#字符向量,用于指定两个级别的分类变量,对于这两个级别的变量,应在一行中显示两个级别。
dropEqual = FALSE,#是否删除“ =第二级名称”描述,指示为两级分类变量显示哪个级别。
exact = NULL,#字符向量,用于指定p值应为精确测试值的变量。
nonnormal = NULL,#字符向量,用于指定p值应为非参数检验的变量的变量。
minMax = FALSE#对于非正态变量,是否使用[min,max]而不是[p25,p75]。默认值为FALSE。
)