(1)数据导入
对初学者来讲,面对一片空白的命令行窗口,第一个任务就是数据的导入。数据导入有很多途径,例如从网页抓取、公共数据源获得、文本文件导入。
例如,读取iris.csv演示数据,在R语言中输入如下命令:
data<-read.table(′iris.csv′,T)
或
data<-read.csv(′iris.csv′,T)
这里的read.table(read.csv)是R语言读取外部数据的常用命令,T表示第一行是表头信息,整个数据存在名为data的变量中。另一种更方便的导入方法是利用Rstudio的功能,在Workspace菜单选择“import dataset”也是一样的。
如果导入的文件大小超过150 MB,属于大文件,要使用以下命令:
library(data.table)
c1<-fread("abc.txt",encoding="UTF-8",sep="\t",data.table=FALSE)
参数data.table=FALSE表示导入的结果为数据框,否则为data.table类型,默认为data.table类型。
(2)数据子集
如果只关注数据的一部分,例如从原数据中抽取第20~30号样本的Sepal.Width变量数据,因为Sepal.Width变量是第2个变量,所以此时键入下面的命令即可:
newdata<-data[20:30,2]
如果需要抽取所有数据的Sepal.Width变量,那么下面两个命令是等价的:(www.xing528.com)
newdata<-data[,2]
newdata<-data$Sepal.Width
(3)数据描述
str(x):显示数据x的结构,如变量数量、变量类型、观测值等。
summary(patient):显示统计概要。
dim(patientdata):显示数据框patientdata维数。
(4)抽样函数
如果从1~10中随机抽取5个数字,则首先产生一个序列,然后用sample函数进行无放回抽取。
x=1:10
sample(x,size=5)
有放回抽取则是
sample(x,size=5,replace=T)
sample函数在建模中经常用来对样本数据进行随机的划分,一部分作为训练数据;另一部分作为检验数据。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。