首页 理论教育 学习R语言入门:数据分析环境简介

学习R语言入门:数据分析环境简介

时间:2023-06-28 理论教育 版权反馈
【摘要】:什么是R语言R语言是一个开源的数据分析环境,起初是由数位统计学家建立起来的,以更好地进行统计计算和绘图。目前R语言非常受到专业人士欢迎,根据对数据挖掘大赛胜出者的调查可以发现,他们用的工具基本上都是R语言。因此,学习R语言对职业发展一定是有帮助的。认识R语言环境从图1.9可以看出,R语言环境总共有四个工作区域,左上是用来写代码的,左下也可以写代码,同时也是数据输出的地方。

学习R语言入门:数据分析环境简介

(1)什么是R语言

R语言是一个开源的数据分析环境,起初是由数位统计学家建立起来的,以更好地进行统计计算和绘图。由于R语言可以通过安装扩展包(Packages)而得到增强,所以其功能已经远远不限于统计分析

R语言名称则是来源于两位主要作者的首字母(Robert Gentleman和Ross Ihaka)。

(2)为什么要学习R语言

1)免费开源。

现在很多学术期刊都对分析软件版权要求,而免费的分析工具可以使你在这方面不会有什么担心。另外,如果学术界出现一种新的数据分析方法,那么要过很长一段时间才会出现在商业软件中。但开源软件的好处就在于,很快就会有人将这种方法编写成扩展包,或者你自己就可以做这份工作。

2)小巧而精悍。

R语言的安装包很小,大约40 MB,相比其他几个软件相比,它算是非常小巧精悍的。目前R语言非常受到专业人士欢迎,根据对数据挖掘大赛胜出者的调查可以发现,他们用的工具基本上都是R语言。此外,从最近几次R语言大会上可以了解到,咨询业、金融业、医药业都在大量的使用R语言,包括Google和Facebook的大公司都在用它。因此,学习R语言对职业发展一定是有帮助的。

3)丰富的R包。

R语言应该是所有数据分析软件里,方法(函数)最多的语言。截至2016年6月,R语言综合典藏网(Comprehensive R Archive Network,CRAN)上共提供了3024个包,涵盖了贝叶斯推断、分类方法、计量经济学生态学金融学遗传学、机器学习、稳健统计、空间统计、生存分析和时间序列等多个方面。(www.xing528.com)

4)广泛的数据接口

R语言可以良好地接入CSV(Comma Separated Values)数据,或者通过其他包来扩展,直接读入SPSS、SAS、Minitab、Stata和Excel等文件,或者直接读取MySQL、SQL Server、DB2和Oracle等数据库

5)强大的绘图功能。

R语言提供了“高水平”“低水平”和“交互式”三种绘图命令,而且很容易生成ps、pdf、png、jpeg、bmp、gif、SVG,甚至以LATEX或HTML形式输出。

(3)认识R语言环境

从图1.9可以看出,R语言环境总共有四个工作区域,左上是用来写代码的,左下也可以写代码,同时也是数据输出的地方。R语言是动态语言,写代码的形式有两种,一种是像写作文一样写很多,也就是像C语言一样的代码;另一种则是写一句就编译解释一句。左下就是写一句编译解释一句的工作区域(命令控制台)。右上是工作空间(Workspace)和历史记录。右下有四个主要的功能,Files是查看当前Workspace下的文件,Plots是展示运算结果输出的图形,Packages能查看系统已安装的软件包,并且通过勾选载入内存,Help则是查看帮助文档。

978-7-111-57073-8-Chapter01-13.jpg

图1.9 Rstudio界面

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈