首页 理论教育 数据准备:文件导入和抽样函数介绍

数据准备:文件导入和抽样函数介绍

时间:2023-06-28 理论教育 版权反馈
【摘要】:数据导入对初学者来讲,面对一片空白的命令行窗口,第一个任务就是数据的导入。如果导入的文件大小超过150 MB,属于大文件,要使用以下命令:libraryc1<-fread参数data.table=FALSE表示导入的结果为数据框,否则为data.table类型,默认为data.table类型。抽样函数如果从1~10中随机抽取5个数字,则首先产生一个序列,然后用sample函数进行无放回抽取。x=1:10sample有放回抽取则是samplesample函数在建模中经常用来对样本数据进行随机的划分,一部分作为训练数据;另一部分作为检验数据。

数据准备:文件导入和抽样函数介绍

(1)数据导入

对初学者来讲,面对一片空白的命令行窗口,第一个任务就是数据的导入。数据导入有很多途径,例如从网页抓取、公共数据源获得、文本文件导入。

例如,读取iris.csv演示数据,在R语言中输入如下命令:

data<-read.table(iris.csv,T)

data<-read.csv(iris.csv,T)

这里的read.table(read.csv)是R语言读取外部数据的常用命令,T表示第一行是表头信息,整个数据存在名为data的变量中。另一种更方便的导入方法是利用Rstudio的功能,在Workspace菜单选择“import dataset”也是一样的。

如果导入的文件大小超过150 MB,属于大文件,要使用以下命令:

library(data.table)

c1<-fread("abc.txt",encoding="UTF-8",sep="\t",data.table=FALSE)

参数data.table=FALSE表示导入的结果为数据框,否则为data.table类型,默认为data.table类型。

(2)数据子集

如果只关注数据的一部分,例如从原数据中抽取第20~30号样本的Sepal.Width变量数据,因为Sepal.Width变量是第2个变量,所以此时键入下面的命令即可:

newdata<-data[20:30,2]

如果需要抽取所有数据的Sepal.Width变量,那么下面两个命令是等价的:(www.xing528.com)

newdata<-data[,2]

newdata<-data$Sepal.Width

(3)数据描述

str(x):显示数据x的结构,如变量数量、变量类型、观测值等。

summary(patient):显示统计概要。

dim(patientdata):显示数据框patientdata维数。

(4)抽样函数

如果从1~10中随机抽取5个数字,则首先产生一个序列,然后用sample函数进行无放回抽取。

x=1:10

sample(x,size=5)

有放回抽取则是

sample(x,size=5,replace=T)

sample函数在建模中经常用来对样本数据进行随机的划分,一部分作为训练数据;另一部分作为检验数据。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈