首页 理论教育 云计算与大数据应用研究:R统计软件包中的数据分析方法

云计算与大数据应用研究:R统计软件包中的数据分析方法

时间:2023-11-16 理论教育 版权反馈
【摘要】:从统计软件包中可以得到R中的一些基本统计分析函数,包括方差分析、广义线性模型和最小二乘回归线性模型、非线性最小二乘法、多元分析、汇总统计、时间序列分析、层次聚类和统计分布。所显示的信息对于作为参数的对象是线性模型还是方差分析是不同的。数据分析人员倾向于显示什么样的描述性统计变量和结果是什么样的格式,用户可以选择最合适的方式,或者创建自己的方法。在R基础装置中提供了大量的回归分析统计假设测试方法。

云计算与大数据应用研究:R统计软件包中的数据分析方法

从统计软件包中可以得到R中的一些基本统计分析函数,包括方差分析、广义线性模型和最小二乘回归线性模型、非线性最小二乘法、多元分析、汇总统计、时间序列分析、层次聚类和统计分布。除上述方法外,还可以从其他R包中获得统计方法,从统计分析中的两个非常有用的概念(公式和通用函数)开始。

1.公式

由于几乎所有函数的符号都是相同的,所以公式在R统计分析中是非常重要的。

如您所见,R公式中使用的运算符与表达式中使用的运算符不一样。用户还可以在公式中包含函数来转换变量

2.通用函数

R中的泛型(遗传)用于解析结果,是对特定类对象具有特定行为的函数。R函数将输入对象作为输入参数,这与许多其他统计编程语言不同。泛型函数的优点是,一个函数对所有类使用相同的格式。例如摘要是分析统计分析结果最常用的R函数,可以显示更详细的结果。所显示的信息对于作为参数的对象是线性模型(“lm”类)还是方差分析(“AOV”类)是不同的。

R的另一个重要特性是,包含分析结果的对象通常是一个List对象,其类定义决定其结果的显示方式,其中输入参数的对象类型决定函数的行为。泛型函数通常是调用参数所属类的对应函数,其中调用的函数称为方法。

(1)描述性统计分析(www.xing528.com)

当多组人员进行观察时,重点往往是每一组,而不是整个样本的描述性统计信息。同样,在R中有很多方法可以实现这一点,我们利用Mtcars数据库(R自带数据库),该数据库中于每加仑汽油的里程数、马力(Hp)和重量(Wt),从各级变速箱类型的描述统计数据开始。

by()函数不允许指定任何函数。因此,它的普遍性很低。如果有多个分组变量,则可以使用List(groupvarl,groupvar2)。

数据分析人员倾向于显示什么样的描述性统计变量和结果是什么样的格式,用户可以选择最合适的方式,或者创建自己的方法。

(2)回归诊断

回归模型采用lm()函数拟合,通过汇总()和其他函数得到模型的参数和统计量。然而,没有输出能够告诉用户模型是否合适,模型参数推断的可信度取决于它是否符合OLS模型的统计假设。预测变量与对应变量之间的关系将对数据造成巨大的偏差,没有规律性或误差。一方面,可以得出预测变量独立于相应变量的结论,但事实上,事实并非如此;另一方面,情况可能正好相反。

回归诊断为用户提供了评估回归模型适用性的必要工具,有助于用户发现和纠正问题。在R基础装置中提供了大量的回归分析统计假设测试方法。最常用的方法是对lm()返回的对象使用PKN()函数,它可以生成四个图来评估模型的拟合。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈