通过Q-Q图观察是否符合正态分布。在图5-1中这些散点分布在直线附近,表明数据近似于正态分布,直线的斜率就是标准差,截距就是均值。
图5-1 正态分布检验Q-Q图
Shapiro-Wilk正态分布检验。W值:W越大,越接近1,表示样本数据越接近正态分布;p值:如果p-value小于显著性水平α(0.05),则拒绝H0(数据服从正态分布)(p越大越好)。
Kolmogorov-Smirnov检验(K-S检验)是用来检验数据是否符合某种分布的一种非参数检验,通过比较一个频率分布f(x)与理论分布g(x)或者两个观测值分布来判断是否符合检验假设。其原假设H0:两个数据分布一致或者数据符合理论分布。
●ks.test(x,y,…,alternative=c(“two.sided”,“less”,“greater”),exact=NULL)
●x:观测值向量;y:第二观测值向量或者累计分布函数,如pnorm(正态分布函数,一般做正态检测的时候直接输入pnorm),只对连续CDF有效。(www.xing528.com)
●alternative=c(“two.sided”,“less”,“greater”):双侧检验还是单侧检验。
●exact:默认为NULL,也可以是其他逻辑值,表明是否需要计算精确的P值。
●结果解释:D值越小,越接近0,表示样本数据越接近正态分布(简单来说,D越小越好),p:p-value小于显著性水平α(0.05),则拒绝H0(p越大越好)。
现测得35位健康男性在未进食前的血糖浓度,试测验这组数据是否来自均值μ=80,标准差σ=6的正态分布。H0:健康成人男性血糖浓度服从正态分布,H1:健康成人男性血糖浓度不服从正态分布。
●结果:D小,p大,故不能拒绝H0,即健康成年男人血糖浓度服从正态分布。
●注意事项:在做单样本K-S检验或者正态检验时,有时会有错误提示“Kolmogorov-Smirnov检验里不应该有联结”,这是因为K-S检验只对连续CDF有效,而连续CDF中出现相同值的概率为0,也就是说数据中已经出现相同值,则连续分布的假设不成立,因此R会报错。这也提醒我们:在做正态性检验之前,要先对数据进行描述性分析,对数据整体要先有一个大致的认识,这使后续才能选择正确的检验方法。
●由于样本只有35,本例子实际上采用S-W检验更为合适。shapiro.test()
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。