首页 理论教育 实验设计与R语言应用:常见描述性统计

实验设计与R语言应用:常见描述性统计

时间:2023-11-24 理论教育 版权反馈
【摘要】:描述性统计分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、数据的分布。利用pastecs包中的stat.desc()函数计算描述性统计量。由于原假设是其符合正态分布,所以当P值小于指定显著水平时表示其不符合正态分布。

实验设计与R语言应用:常见描述性统计

描述性统计分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、数据的分布。

●数据的频数分析。利用频数分析可以检验异常值。

●数据的集中趋势分析。常用的指标有平均值、中位数和众数等。

●数据的离散程度分析。主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。

●数据的分布。在生物实验数据统计分析中,通常要假设样本所属总体的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本数据是否符合正态分布。

利用summary()函数进行基本描述性统计。summary()函数提供了最小值、最大值、四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计。

利用pastecs包中的stat.desc()函数计算描述性统计量。stat.desc(x,basic=TRUE,desc=TRUE,norm=FALSE,p=0.95)其中的x是一个数据框或时间序列。若basic=TRUE(默认值),则计算其中所有值、空值、缺失值的数量,以及最小值、最大值、值域,还有总和。若desc=TRUE(同样也是默认值),则计算中位数、平均数、平均数的标准误、平均数置信度为95%的置信区间、方差、标准差以及变异系数。最后,若norm=TRUE(不是默认的),则返回正态分布统计量,包括偏度和峰度(以及它们的统计显著程度)和Shapiro-Wilk正态检验结果。

●四分位差range——上四分位数减去下四分位数,值越大表明变异度越大。

标准误差平均值SE.mean——也叫平均数标准误差,是描述平均数抽样分布的离散程度及衡量平均数抽样误差大小的尺度。

●CI.mean.0.95平均数置信度为95%时的置信区间,表示真实值有95%落在区间周围内。(www.xing528.com)

●方差var-即均方差σ2,反应一组数据的平均离散程度。

●标准差std.dev——方差的平方根。标注差越大表示个体差异越大。

●变异系数coef.var——用标准差除以平均值,值越小说明测定方法紧密度越高。

●偏度系数skewness——用来描述数据分布特征(分布偏斜程度)的系数,该系数>0为右偏分布,<0为左偏分布,=0为对称分布。

●峰度系数kurtosis——用来描述数据分布特征(分布扁平程度)的系数,该系数>0为尖峰分布,<0为扁平分布,=0为扁平峰度适中。

●Shapiro-Wilk正态分布检验normtest.W:Shapiro-Wilk检验只适用于小样本场合(3=<n=<50),检验用来检验是否数据符合正态分布。该检验原假设为H0:数据集符合正态分布。统计量W越大,越接近于1则表示数据越符合正态分布,但是仅凭这一个参数是不够的,在非正态分布的小样本数据中也经常会出现较大的W值。

●Shapiro-Wilk正态分布检验normtest.P:由于大多数情况下统计量的分布是未知的,因此需要通过模拟来估计其概率normtest.P。由于原假设是其符合正态分布,所以当P值小于指定显著水平时表示其不符合正态分布。

利用table函数计算频数。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈