主讲老师第六课:DataEditR 包的使用
考虑到在 R 中手动输入和编辑数据可能很繁琐,尤其是对于新手而言,DataEditR包将 Excel 中的使用方法搬到 RStudio 中,这个对新手使用比较友好,但是也存在一定的缺陷,一旦数据量过大,会进入卡机状态。当然,这种数据量,在 EXCEL里面也历经无法进行,只能通过代码了,还记得之前英国新冠人数上面使用EXCEL 的那个笑话吗?
EXCEL 数量达到上限以后就无法新增列。DataEditR 包,最初于 2020 年 7 月 23 号发布于 GitHub 上,目前已经被 CRAN 收录了,它是一个基于 shiny 且可扩展的交互式 R 程序包,可以轻松地交互查看,输入,过滤和编辑数据
1.R 包安装与读取
1.1 R 包的安装
对于 DataEditR 包的安装,我们可以直接使用 install.packages()代码即可完成,当然,如果想要保持最新更新版本,也可以从 GitHub 上进行下载,GitHub 上进行下载对网速有要求,一般直接使用第一个代码下载即可
1.2 读取 R 包
安装完成后,使用 library()来检验是否安装成功
2.打开交互界面
在 DataEditR 包中,存在一个名为 data_edit()的函数,通过该函数,我们可以在RStudio 中打开一个交互式界面在 R 中进行交互查看,输入或编辑数据点击“Browse”,即可本地上传数据,其中,根据作者介绍,数据编辑器的主要功能
总结如下:
快速查看数据的方法;从头开始创建 data.frame;使用任何读取功能(例如 read.csv())加载保存到文件的表格数据,即使已指定行名,也始终包含行索引;添加/删除行或列;编辑行名或列名;手动调整列大小;拖动一个单元格以填充其他单元格;这几个是比较常用的功能,其他还包括保存文件等等。下面来具体演示一下,在此,我们还是使用内置数据 mtcars 来进行演示。
两种打开方式,任选一种就可以,第一种是在 RStudio 里面打开,第二种是使用浏览器打开;对于数据集,既可以是内置数据集,也可以读取到 Environment 中的data.frame 或矩阵等形式。
3. 编辑数据内容
对于表中的数据内容,我们可以直接选中需要修改的内容双击鼠标,输入修改后的数据即可快速完成修改
3.2 行(rownames)与列(colnames)名称重新编辑
先来看下使用代码修改列名colnames(mtcars)[2] <- "achen"看下含义,colnames(mtcars)表示取列名,colnames(mtcars)[2]表示取第二个列名,然后进行赋值,然而,在 DataEditR 包中,可以直接鼠标选中需要修改的行名和列名。
输入需要修改的新名字“achen”,进行修改
3.3 添加/删除行或列
在 Excel 中,有一种受到众人喜爱的十分简便的方法,可以随意的添加或删除行和列,在此,我们也可以在这个 R 包中快速实现,选择某一格后,右键鼠标,即可看到相应的功能。
包括 Insert rows above(在上方添加行),Insert rows below(在下方添加行),Remove row(移除行),Insert column left(在左侧添加列),Insert columnright(在右侧添加列),Remove column(移除列)等,另外还包括了撤回(Undo)和重做(Redo),这个功能在 R 里面还是比较少见的,一旦运行错误只能从头来一次,没有撤销和重做的功能。
3.4 手动调整列大小
当某列中内容过长时,我们可以选中该列,通过鼠标来手动调整列的大小
3.5 拖动填充
和 Excel 一样,选中某一格内容后,快速下来,即可自动填充空格内的内容
3.6 筛选行
为了便于后续的分析,我们需要对用于分析的列进行选择
1.首先,点击第一个按钮:
2.对需要筛选的列进行选择,其中绿色为选中列,红色为取消不选
随后,点击旁边的 close 关闭即可完成
3.对列选择完成后,点击第二个按钮,对列内的变量进行选择
4.在 Column 中选择列名“cyl”,在 Logic 中选择逻辑方式,如“greater than”(大
于),在 Levels 中选择筛选标准,如选择变量 cyl 中大于 6 的行。
选择完成后,点击“Close”即可完成。
3.7 保存结果
所有筛选与编辑完成后,点击第四个按钮,即可将最后的结果保存到本地。
当然,也可以将编辑后的结果直接保存到环境变量 Environment 中。
点击最后一个按钮,使得按钮变绿,随后点击按钮 Done,即可将最终的结果保存
到新变量 rt 中,用于后续的分析与绘图
算的上是从 R 中导出数据的又一种方法关于这个包的介绍,基本就这么多,当然,其他的功能的话,大家可以课后再试试探索一下,不过,介绍这个包的目的,只是有时候可以进行简化步骤,但是不要过分依赖,还是需要把代码部分学好了。另外,使用 R 包时候,记得引用一下这篇
文章:
主讲老师讲席营
生信分析中的常用R包
工欲善其事必先利其器CONTENTS 1. 数据导入
2. 数据整理
3. 数据可视化
数据导入万物从此开始And everything beginsreadr包——读取txt、 readxl包——读取01 csv文件格式 02 Excel文件格式数据导入 03gi t 2 r包 ——访 问g i t h ub 仓库 04data.table包——可以快速读取大样本数据集haven包——读取xml2包——读取HTML05 SPSS、SAS和Stata统 06 和XML文件格式计软件格式数据整理
生信分析中最困难的一步
The most difficult step in bioinformaticsR数据科学可视化清晰&美观&简易和复杂的平衡Balance of clarity & beauty & simplicity & complexity ggthemes包——提供ggplot2各种图形风格主题 complexheatmap包——绘制热图的包 ggrepel包——避免标签重叠并提供指引 pheatmap包——绘制热图的包 igraph包——用于构建网络可视化 FactoMineR包——绘制PCA的包 ggstatsplot包——绘制带有统计学信息的可视化 UpsetR包——厌倦韦恩图的千篇一律,试试集合图吧 survminer包——提供优秀的生存分析可视化 ggcorrplot包——绘制相关性的包 ggsci包——提供丰富配色 circlize包——绘制圆圈图 RColorBrewr包——提供三套配色方案(连续、渐变、极端) patchwork包——拼图包的神Thank you