第 2 课

R 语言简介

课程讲义导读 · 聚焦本课核心概念、分析流程与复现要点

说明:本页适合用于快速回顾本课重点、关键步骤与常用示例。

主讲老师第二课:R 语言简介

相信大家对于 R 语言必然不陌生了吧,关于 R 语言,其是一个自由开放的软件,免费、开放源代码,支持各个主要计算机系统。目前 R 已经存在上万个软件包,关于 R 的安装,大家选择适合自己电脑的版本,点击安装,选择默认的参数,即可顺利完成安装过程。安装后获得一个桌面快捷方式,如“R i386 4.0.2”(这是 32 位版本),如果是 64 位操作系统,可以同时安装 32 位版本和 64 位版本。对初学者这两种版本区别不大, 尽量选用 64 位版本,毕竟这是将来的趋势安装官方的 R 软件后,可以安装 RStudio,平时使用可以使用 RStudio,其界面更方便, 对 R Markdown 格式(.Rmd)文件支持更好。这里注意一点,必须先安装 R,再安装 RStudio,不然会出错的安装好之后,我们来打开 R 界面,R 的界面非常简洁,只有一个菜单栏和一个默认新建的 R Console 控制台。在 R Console 控制台内输入脚本,即可进行运算、绘图和分析。但是,一般来讲,对初学者而言,不建议直接使用 R 来进行分析使用。

关于 RStudio 的安装,必须要先安装 R,再来安装 RStudio。接着我们来讲讲什么是 RStudio。把 RStudio 安装好后,以后每次使用 R 直接启动 RStudio 就可以了。

关于 R 语言与 RStudio 之间的关系,用官方的话来讲呢,RStudio 软 件 是 R 语言的一种集成开发环境(integrated development environment,IDE),可以将许多功能强大的编程工具集成到一个直观、易于学习的界面中。

简单来说,可以理解为 RStudio 是经过化妆后的 R 语言,与 R 软件那朴素的控制台相比较,RStudio 显得更加友善可爱,更加漂亮了,其核心内容还是 R 语言来实现的。下面,打开 RStudio,快速浏览一下其中的四个主要界面:

第一个,左下方的控制台,这与 R 软件的界面是一样的,整个代码流程的运行过程都将在这里进行。介绍一个快捷键,Ctrl+l,快速清空控制台。但是注意一点,不管怎么清空控制台,其运行结果还是在的,并不是清空环境变量,与后面介绍的注意区分第二个,代码编辑器,位于控制台上方,在此我们可以自由的编写代码,我们可以在其中随意删改所需要的代码。当然,在首次打开 RStudio 时并没有显示代码编辑器,点击左上角的图形,选择第一个即可完成第三个,工作空间(Environment)与历史信息(History),展示图中右上角的位置。1)Enviroment 显示所有活动对象,已经有定义的变量、函数都显示在这里。

在后面分析过程中将经常进行查看;2)History 是记录在控制台中运行的所有命令,在这里,以前运行过的命令都显示在这里,而且,不限于本次 RStudio 运行期间,也包括以前使用 RStudio 时运行过的命令。如果有时候被误删代码时可以回看之前的运行记录。

第四个,画图和函数包以及帮助窗口。

1). Files:文件夹目录信息,这里列出了当前项目的目录(文件夹)内容,其中以“.R”或者“.r”为扩展名的时 R 源程序文件,单机某一源程序文件就可以在编辑窗格中打开该文件。

2). Plots:图形的输出界面,如果程序中有绘图结果, 将会显示在这个窗格,因为绘图需要足够的空间,所以当屏幕分辨率过低或者 Plots 窗格太小的时候,可以点击“Zoom”图标将图形显示在一个单独的窗口中,或者将图形窗口作为唯一窗格显示。

3). Packages:显示已安装的 R 扩展包及其文档。

4). Help:查看帮助文档,R 软件的文档与 RStudio 的文档都在这里。

介绍完所有的界面内容后,再来介绍一个小小的知识点。在既往的教材中,包括 R语言的经典教程《R 语言实战》中,往往会教大家使用命令 setwd()来设置工作目录,但是,该过程往往相对繁琐,换了电脑以后,每次都要重新来一遍,而且每次移动文件时需要同时修改路径,一不小心就是一句经典报错内容——“找不到对象”,这个时相当常见的报错内容,这里呢,教给大家另外一个技巧,就是 Rproject。

如果使用 RStudio, 每个分析项目需要单独建立一个“项目”(project), 每个项目也有一个工作文件夹

下面来设置 Rproject:

1.打开 RStudio,点击红色框中图标

2.点击 New Directory

由于 Rroject 是绑定文件夹的,因此会弹出一个窗口询问是否新建一个文件夹还是

使用已有的文件夹。在此,我们以新建一个文件夹为例:

3.点击 New project

4.Create New Project

在 Directory name 中输入新文件夹名字,在下方的 Create project as subdirectoryof 中选择文件夹的路径。

在此,我们把文件夹新建在桌面上。命名为“fuxian_JLX”,点击 Create Project,即可打开一个新的项目。这样,一个新的 Project 就建立好了。

Rproject 文件主要以这样的图标存在,包括大家从挑圈联靠公众号上下载下来的附件代码,我一般每个内容都会提供这样一个 project 文件。直接点击这个文件,这样就不需要再来设置文件目录了。

下面点击打开 Rproect 文件,通过命令 getwd()来查看当前目录。

getwd()#查看当前工作路径即可以看到我们的工作路径就是我们 Rproject 所在的位置,是不是很神奇呢?

这一点在后续可以帮助我们规避很多的问题下面开始介绍 R 包的安装使用。R 包是由多个函数组成的集合,往往配合有详细的说明和示例内容,R 包可以理解成为软件,刚安装完的 R 语言就好比一台新电脑,只有最基本的功能,即 base 包,而 R 之所以迷人就是因为其拥有丰富的 R 包,特定的分析功能,需要相应的 R 包来实现。比如说大家耳熟能详的作图 ggplot2 包,差异分析 limma 包等等,接下来的课程内容中,基本就是和各种不同的 R 包打交道的过程,因此我们需要进一步学习如何安装不同的 R 包。下面,基于 R 包的不同来源,我们分别介绍一下不同的安装方法。

1.CRAN

CRAN 是一个 R 的存储库,除了数千个不同用户贡献的 R 包的源代码之外,还提供了最新和旧版本的 R 包下载地址。目前而言,大部分的 R 包主要储存在 CRAN 中。

当然,为了方便使用下载,CRAN 在全球提供了各种镜像,我们可以直接从 CRAN的镜像中获取下载链接。下面,以 ggplot2 包为例,我们来介绍几种下载方法。

方法一:可以使用 install.packages 函数从 CRAN 安装 R 包。

install.packages("ggplot2")使用 install.packages 函数,将从 CRAN 镜像上下载源代码,并在您的计算机上本地安装软件包(以及依赖项)方法二:点击 Tools---Install Packages---在 Packages 栏目中输入“ggplot2”---点击“Install”

2.Bioconductor

除了 CRAN 外,另外还有一个和我们生物比较密切相关的储存库,Bioconductor。

Bioconductor 是另一个用于生物信息学的专题库,其中储存有大量生信分析相关的 R 包,提供分析和理解高通量基因组数据的工具,比如我们差异分析中最常用的 limma 包。与上一个讲述的安装方式不同,要从 Bioconductor 安装 R 包,首先需要安装 BiocManager。当然,BiocManager 只需要安装一次。

if(!requireNamespace("BiocManger",quietly=TRUE))install.packages("BiocManager")和刚才的 ggplot2 包一样。首先通过 install.packages("BiocManager")来成功安装 BiocManager 包。

BiocManager::install("limma")接着通过 BiocManager::install("R 包")来进行安装。BiocManager::install("R 包")是指调用 BiocManager 包中 install 函数来进行安装。看下完整的代码:

有时候,受限于网速等各种原因的问题,代码安装过程会出现各种问题,对此,我们可

以使用本地安装的方法,以 limma 包的安装为例:

1). 搜索“limma bioconductor”找到相应的网站,点击进入网站2).在 Package Archives 中选择相应的版本,大家根据自己电脑的类型进行相应的下载3). 与之前 CRAN 下载的不同,把 Install from 选择改为第二个选项“PackageArchive File (.tgz; .tar.gz)”,然后点击 Browse 选择刚下载的文件“limma_3.46.0.tar”,随后点击 Install,即可完成安装。

除此之外,我们会发现一些新的 R 包都不在这两个里面。有些新的 R 包作者会上传到 Github 网站上,这时候就需要通过其他的方式来进行下载。不过,对于GitHub 上 R 包的安装,网速会比较受限,对于这样的包, 安装方法举例如下:

其中 kjhealy 是 Github 网站的某个作者的名称,socviz 是该作者名下的一个 R 扩展包。

接下来说说 R 包更新。在 RStudio 中用“Tools–Check for Package Updates”菜单,可以显示有新版本的扩展包,并选择进行更新,或者在命令行用如下命令更新本地安装的所有有新版本的 CRAN 扩展包这里的代码注意一下,第一句内容options(repos=c(CRAN="http://mirror.tuna.tsinghua.edu.cn/CRAN/")),这句话是对 CRAN 网站设置了一个国内的镜像,这里设置的是清华大学的镜像,镜像的设置会比直接下载安装快很多,尤其是后面有遇到一个包有 500 多 MB 大小的时候;此外,RStudio 在运行时会载入某些包, 如 rlang, 这使得 RStudio 无法更新这些包,需要在 R 的命令行程序中更新。虽然这里讲了 R 包的更新,但是,一般情况下不建议更新,还有,在安装过程中,询问是否更新,都是选择 no。一个小规律:在R 语言里面,问是否一般都回答否,除非回答了否报错了,回过头来再选是,能解决 95%以上的问题。而在如果直接学习 Linux 系统语言时,问是否,一般选择是,这两个是个区分点。后面再使用过程中可以体会一下,因为一旦回答是,会把所有包都下载安装一遍,包速度很慢还有可能失败。

另外,讲几个注意事项:

1).library()是检验 R 包安装成功的金标准,在安装过程中,会出现一大串红色的字,不要慌,有兴趣的可以看看,没兴趣的也可以不看,这是作者给的里面的一些相关信息。安装完成后,大家可以通过 library(包的名称)来快速判断是否安装成

功,比如 library(ggplot2):

运行后顺利下一行顺利出现了大于号>,那就是安装成功了;2). R 包第一次使用时需要安装,以后每次使用直接加载即可,包只需要安装一次,当每次使用都需要通过 library 来加载;3).并不是安装了 R 包就不需要写代码了,R 包只是提供一个便捷,不代表就需要写代码,我们需要学习其中各种函数的使用方法。关于 R 包安装,提供给大家一个代码(packages.R),大家回去后这里面的代码运行,把后面课程中会遇到的各种 R 包提前安装。

同时,给大家介绍两个常用的镜像设置。在安装过程中,我们可以先根据包的来源,

设置一下镜像:

改变乱码的方式选择 UTF-8,重新打开一下。

彩蛋雪球说生信 | 生信中的R包该怎么安装?

https://mp.weixin.qq.com/s/p2sExQhiCR8lLhx6CjxZMA万字长文教你快速掌握生信研究套路!看到就是赚到!

https://mp.weixin.qq.com/s/Lg-8bIPA6yHYyM14JuhH_Q

← 返回批次1总导航