传统的统计量检验方法是在检验之前确定显著性水平α,也就意味着事先确定了拒绝域。这样,无论检验统计量的值是大还是小,只要其值落入拒绝域就拒绝原假设H0,否则就不拒绝H0。这种固定的显著性水平α对检验结果的可靠性起一种度量作用。但不足的是,α是犯第Ⅰ类错误的上限控制值,它只能提供检验结论可靠性的一个大致范围,而对于一个特定的假设检验问题,却无法给出观测数据与原假设之间不一致程度的精确度量,也就是说,仅从显著性水平来比较,如果选择的α值相同,所有检验结论的可靠性都一样。要测量出样本观测数据与原假设中的假设值μ0的偏离程度,则需要计算p值。
◎定义6.13:原假设H0为真时,所得到的样本观察结果或更极端结果出现的概率,称为p值(p⁃value),也称观察到的显著性水平(observed significance level)。
由p值可知,如果原假设是正确的话,这样的样本数据出现的可能性有多大。如果这样的样本数据出现的可能性很小,就是原假设不对的证据。但永远也不会知道对总体的原假设是否正确。如果取显著性水平为5%,则只能说明如果原假设为真,这样的数据只有5%的可能性会发生。p值是反映实际观测到的数据与原假设H0之间不一致程度的一个概率值。p值越小,说明实际观测到的数据与H0之间不一致的程度就越大,检验的结果也就越显著。由于p值是在原假设为真的情况下得到的目前这个样本数据的概率,因此,用p值进行检验的基本思想是:
基本思想:小的p值表明在原假设为真时,得到目前这样一个样本结果的可能性很小,所以应该拒绝原假设。
对于不同检验形式的p值,如图6.2(a)、(b)、(c)所示。
图6.2 p值示意图
p值是用于确定是否拒绝原假设的另一个重要工具,它有效地补充了提供的关于检验可靠性的有限信息。由于传统的假设检验中,究竟选择多大的比较合适是难以定论的,而用p值进行检验可以避免这一问题。此外,与传统的统计量检验相比,利用p值进行检验比根据统计量检验提供更多的信息。例如,根据事先确定的进行检验时,只要统计量的值落在拒绝域,这时拒绝原假设的结论都是一样的,即检验结果显著。但实际上,统计量落在拒绝域不同的地方,实际的显著性水平是不同的。例如,统计量落在临界值附近的地方,实际的显著性水平就有较大的差异。而p值给出的是实际计算的显著性水平,它告诉我们实际显著性水平是多少。而统计量检验是以事先给出的一个显著性水平为标准进行决策,如果拒绝原假设,仅知道犯错误的可能性是那么大,但究竟实际有多大却不知道。(www.xing528.com)
利用p值进行决策的规则十分简单,在已知p值的条件下,将其与给定的显著性水平值进行比较,就可以确定是否应该拒绝原假设。当然也可根据需要来进行决策,而不必事先规定显著性水平。从图6.2可以看出,单侧检验中,p值位于抽样分布的一侧,而双侧检验的p值位于分布的两侧,每一侧为p值的1/2。通常是以两侧面积的总和定义为p值,之所以这样是可将p值直接与给定的显著性水平值进行比较。因此,不论是单侧还是双侧检验,用p值进行决策的准则都是:
基本思想:如果p<α,则聚聚原假设H0。
两种检验的方法关系如图6.3所示。
图6.3 传统检验与p值检验的关系
p值的计算可通过查表得到,但比较麻烦,幸运的是,计算机的应用使p值的计算十分容易,多数统计软件能直接输出有关假设检验的主要计算结果,其中就包括p值。有关p值的具体计算,可使用Excel工具,此部分内容在后面相关应用中进行介绍。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。