水文中长期预报中,影响预报对象的因子往往不止一个,那么自然的想法是希望能从这些影响因子中挑选一批与预报对象关系较好的因子,建立“最优”的回归方程进行预测,这就是逐步回归(Stepwise Regression Analysis)的总体思路。
从2.2节的介绍可知,有了多元回归分析,就可根据预报因子与预报对象的观测数据建立回归方程,据此对未来出现的数值进行预测。但是,多元回归建模时对影响因子是平均看待的,没有分析它们与预报对象的主次关系;同时,多元回归也没有考虑因子之间的独立性,即包括在回归方程中的各个因子,可能某些因子对预报对象的影响是重复的;再有,从衡量预报的精度看,如果剩余标准差越小,则预报精度越高,反之则精度低。如果方程中包含了对预报对象不起作用或作用很小的因子时,则残差平方和不会因为有了这个因子而减少多少,相反可能由于剩余方差自由度的减少使剩余标准差增大,从而降低预报精度,同时还会影响回归方程的稳定性。
逐步回归方法在建立回归方程时不是把全部预报因子一下子都进入回归方程,而是先定义一个衡量因子对预报对象重要性的指标,以便从中挑选出对预报对象影响显著的因子。因子的挑选是逐步进行的,在建立回归方程的过程中,每一步只挑选出一个因子,要求选出的因子是所有可供筛选的因子之中能使残差平方和下降最多的一个,并且还要通过给定信度的显著性检验(F 检验)。
设第一步挑选的因子为x1,则组成第一步过渡方程为:(www.xing528.com)
再根据衡量因子重要性的标准挑选第二个因子。设选中的第二个因子为x2,则组成第二步方程为:
这种步骤一直继续下去,直至在还未引入回归方程的因子中,不存在对预报对象作用显著的因子为止。如果由于后面引入的因子引起了前面已引入方程的因子对预报对象的作用显著变小,甚至不显著,还要将不显著的因子加以剔除。因此,在逐步回归中每一步都要作剔除和引进因子的检验,直到既不能引进也不能剔除因子为止。这样,最后得到的回归方程中只包含了对预报对象影响显著的因子,而没有引入方程的因子,如添加任何一个,都不会对回归效果有显著的改进。这就是逐步回归的基本思想。
由于衡量因子重要性的指标不同以及具体计算过程中处理的差异,逐步回归的计算方法也是各式各样的,甚至在名称上也有所不同。本节介绍的逐步回归是“双重检验”的逐步回归,按照习惯简称为逐步回归。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。