在建立Logistic模型过程中,我们需要识别可以很好地预测因变量的候选自变量,并且将它们全部纳入模型。通常有以下几种方法进行自变量的筛选。
1.向前逐步(forward stepwise)
即在不加入自变量的模型基础上,将符合既定显著水平的自变量一次一个地加入模型。首先第一个变量进入模型,并进行F检验和t检验,计算残差平方和,计为S1,如果通过显著性水平检验,则该变量保留。然后引入第二个变量,重新构建一个新的估计方程,并进行F检验和t检验,同时计算残差平方和,计为S2。从直观上看,增加一个新的变量后,模型整体的回归平方和应该增大,残差平方和应该减小,即S2小于等于S1,称S1-S2的值是第二个变量的偏回归平方和。直观地说,如果该值明显偏大,则说明第二个变量对因变量有显著影响,反之则没有显著影响。向前逐步最大的缺点是先引入模型的变量不会再剔除,可能会给后面引入的变量产生影响。在SAS中需要调用的命令为:selection=forward sle=*(*代表选定的显著水平,下同)。
2.向后逐步(backward stepwise)
即在保留所有自变量的基础上,将不符合既定显著水平的自变量一次一个地剔除模型。同向前回归法正好相反,首先,所有的X变量全部引入模型进行F检验和t检验,然后逐个删除不显著的变量,删除的原则是根据其偏回归平方和的大小决定去留。如果偏回归平方和很大则保留,反之则删除。向后逐步最大的缺点是可能会引入一些不重要的变量,而且真正重要的变量一旦被剔除,就再也没有机会进入模型。在SAS中需要调用的命令为:selection=backward sls=*。(www.xing528.com)
3.混合逐步(combined stepwise)
即将向前和向后逐步结合起来,根据既定的显著水平将自变量加入或者剔除。变量一个个进入模型,在引入变量时需要利用偏回归平方和进行检验,显著时才加入该变量,当模型加入了该变量后,又要对原先引入的所有变量重新用偏回归平方和进行检验,一旦某变量变得不显著时就删除该变量,如此反复,直到原先引入的变量均不可删除,新变量也无法加入为止。在混合逐步中需要注意的一个问题是引入自变量要求的显著性水平应当小于或等于剔除自变量要求的显著性水平,即“严进宽出”。在SAS中需要调用的命令为:selection=stepwise sle=*sls=*。
上述的三种方法都是基于研究者所定的显著水平来进行自变量的筛选,通常来说,如果我们选择的显著水平太小,就有可能在建立模型时遗漏某些重要的自变量。但是使用较大的显著水平也可能将一些不太重要的变量包括在模型之中,因此,在决定一个模型之前,应当从统计和实际意义两个方面进行显著水平的把关。并且为了计算方便,通常向前逐步选取变量用似然比检验,而向后逐步变量常用Wald检验。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。