为了考评教师的教学质量,教学研究部门设计了一个教学评估表,对学生进行一次问卷调查,要求学生对12位教师的15门课程(其中3位教师有两门课)按以下7项内容打分,分值为1~5分(5分最好,1分最差):
x1——课程内容组织的合理性;x2——主要问题展开的逻辑性;x3——回答学生问题的有效性;x4——课下交流的有效性;x5——教科书的有效性;x6——考试评分的公正性;y——对教师的总体评价.
收回问卷后,得到了学生对12位教师、15门课程各项评分的平均值,如表9.3.1所示.
表9.3.1 12位教师、15门课程各项评分的平均值
教学研究部门认为,所列各项具体内容x1~x6中不一定每项都对教师总体评价y有显著影响,而且各项内容之间也可能存在很强的相关性,他们希望得到一个总体评价与各项具体内容之间的模型,这个模型应尽量简单、有效,并且由此能给教师一些合理的建议,以提高总体评价[21].
【关于逐步回归】
虽然给出了6个自变量,但是我们希望从中挑选出对因变量y影响显著的那些来建立回归模型.变量选择的标准应是将所有对因变量影响显著的自变量都选入模型,而影响不显著的自变量都不选入,从便于应用的角度来说应使模型中的自变量个数尽量少.逐步回归就是一种从众多自变量中有效地选择重要变量的方法.
逐步回归的基本思路是,先确定一个包含若干自变量的初始集合,然后每次从集合外的变量中引入一个对因变量影响最大的,再对集合中的变量进行检验,从变得不显著的变量中移出一个影响最小的,依此进行,直到不能引入和移出为止.引入和移出都以给定的显著性水平为标准.
MATLAB统计工具箱中的逐步回归命令是stepwise,它提供人机交互式画面,研究者可以在画面上自由地引入和移出变量,进行统计分析,其通常用法是:
Stepwise(x,y,inmodel,penter,premove)
其中x是自变量数据,排成n×m矩阵(m为自变量个数,n为每个变量的数据量);y是因变量数据,排成n维向量;inmodel是自变量初始集合的指标(即矩阵x中哪些列进入初始集合),缺省时设定为没有选取任何x的列向量;penter是引入变量时设定的最大p值,缺省时为0.05;premove是移出变量时设定的最小p值,缺省时为0.10.premove值不能小于penter值.
运行如下程序:
得到Stepwise Regression的初始界面窗口(6个自变量都没有进入初始模型),如图9.3.1所示.
界面的左上方给出了所有6个变量的回归系数的估计及误差界(用水平线表示),其中计算机屏幕上彩色的水平线表示置信度为90%的置信区间,灰色的为其95%的置信区间.水平线若为红色,则表示该水平线所对应的变量没有被选入模型中.界面上方中间部分的表格显示的是某个变量一旦被选入到模型中时,该变量的回归系数的估计值、检验的t统计量值以及p值.一般来说,每一步选入的都是具有最小p值或最大统计量值的项,图9.3.l中为自变量x2.一般只需按Next Step按钮进行下一步操作,程序就会自动选择所要引入或移出的自变量,并在界面的右上方给出相应的结果.当然也可以手动操作,用鼠标点击表中的一行,改变其状态,即目前不在模型中的一个变量(红色的行)被引入(变蓝),目前在模型中的一个变量(蓝色的行)被移出(变红),直到界面提示Move no terms为止.通常我们可以直接按All Steps按钮来完成整个模型的逐步回归过程.如在图9.3.1中按All Steps按钮,可得到逐步回归的最终结果,如图9.3.2所示.(www.xing528.com)
图9.3.1 Stepwise Regression初始界面
图9.3.2 Stepwise Regression最终界面(按All Steps按钮所得)
Stepwise Regression界面分为上、中、下三个部分,界面的上面部分已经做过介绍.界面中间部分的表格给出了该回归模型的所有计算结果,包括Intercept(截距,即回归常数)、决定系数R2、检验的F值、RMSE(剩余标准差)、调整的决定系数R2以及检验的p值,这里调整的决定系数R2为,其中k为选入模型的自变量个数.
界面的下面部分Model History,给出了逐步回归中每步所对应的模型的剩余标准差的点图(蓝色的点),将鼠标移至某步对应的蓝色点,会显示此步对应的模型中所包含的自变量,点击该蓝色的点可追踪当前模型所对应的界面.
关于我们的问题,从图9.3.2可以看出,最终入选的自变量只有x1,x3(显示为蓝色),通过分析可知,随着逐步回归的进行,每步模型所对应的剩余标准差(RMSE)减少到0.1,虽然在个别步中R2略有下降,但模型的F值却大大提高.这些都表明,仅含x1,x3的模型是合适的,由x1,x3的回归系数和回归常数利用逐步回归最终得到的模型为
【模型的解释】
在最终模型中回归变量只有x1,x3,是一个简单易用的模型,据此可把课程内容组织的合理性(x1)和回答学生问题的有效性(x3)列入考评的重点.模型(9.3.1)表明,x1的分值每增加一分,对教师的总体评价就增加约0.5分;x3的分值每增加一分,对教师的总体评价就增加约0.77分.应建议教师注重这两方面的工作.
为了分析其他自变量没有进入最终模型的原因,可以计算x1~x6,y的相关系数.利用MATLAB统计工具箱执行corrcoef(x)命令直接得到这7个变量的相关系数矩阵:
一般认为,两个变量的相关系数超过0.85时才具有显著的相关关系.由上面结果可知,与y相关关系显著的只有x1,x2,x3,而x2未进入最终模型,是由于它与x1,x3的相关关系显著(相关系数r12=0.9008,r32=0.8504),可以说,模型中有了x1,x3以后,变量x2是多余的,应该去掉.
评注:如果初步看来影响因变量的因素较多,并得到了大量的数据,为了建立一个有效的、便于应用的模型,可以利用逐步回归选择那些影响显著的变量“入围”.
如果怀疑原有变量的平方项、交互项等也会对因变量有显著影响,也可以将这些项作为新的自变量加入候选行列,用逐步回归处理.这样,本章第一节和第二节中模型的变量选择,都可以用逐步回归的方法去做,有兴趣的读者不妨一试.
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。