由前文可知,回归分析描述的是一个或多个自变量与单一因变量之间的线性关系。根据自变量数目的不同,回归分析可以分为一元线性回归分析(只有一个自变量)和多元线性回归分析(有两个或两个以上的自变量)。多元线性回归是探索多个自变量与一个因变量之间的线性关系,并用多元线性回归方程来表达这种关系。现实教育研究中,一个现象往往同多个因素相联系,由多个自变量的最优组合来共同预测因变量更符合现实问题的情况。
基本操作过程:
1.建立包含两个变量以上的SPSS数据文件。
2.初步探索变量之间的线性关系:先调用【Graphs】—【Scatter】菜单项制作散点图,初步探索因变量随自变量变化的趋势,以便确定数据是否适合线性模型。只有数据之间大致呈线性关系,才可以建立线性回归方程。
3.如果通过散点图可以初步判定变量之间呈线性关系,则单击【Analyze】—【Regression】—【Linear】菜单项。在左边变量框中选择因变量,将其移至【Dependent】栏,只能选择一个因变量移至此栏。选择多个自变量移至【Independent(s)】栏中。
4.在【Method】下拉菜单中选择回归分析方法:
(1)【Enter】:强行进入法,表示所选择的自变量全部进入回归模型,是系统默认的方式,通常用于一元线性回归分析。
(2)【Remove】:剔除法,建立模型时,根据【Options】中设定的条件剔除部分自变量。
(3)【Forward】:向前选择法,首先将因变量有最大相关的自变量引入方程,如果该自变量没有通过F检验,则选择工作结束,方程中没有引入任何变量;如果通过F检验,则在剩余的变量中寻找具有最大偏相关系数的变量,将其引入方程,并再次进行F检验,如果通过F检验,则在模型中保留该变量,并以这样的模式继续寻找下一个进入回归方程的自变量,直到所有满足【Options】对话框所设立判据的变量都被引入模型为止。
(4)【Backward】:向后剔除法,与向前剔除法的顺序相反,首先建立全模型,然后根据【Options】对话框所设立的判据,每次删除一个最不符合进入模型判据的变量,直到回归方程中不再含有不符合判据的自变量为止。
(5)【Stepwise】:逐步回归法,是前两种方法的结合。其特点是每一次按照向前选择法的标准引入变量后,都要按照向后剔除法的标准对已经引入的变量进行检验,直到进入模型的自变量均符合判据,没进入模型的自变量都不符合判据为止。
5.【Selection Variable】:可对样本数据进行筛选,挑选符合一定筛选条件的样本数据进行线性回归分析。将筛选变量移至该栏中,单击【Rule】,打开【Set Rule】对话框,确定运算法则和数值。此栏的数据选择功能可以排除一些异常值对回归方程解释率低的影响。
6.【Case Labels】:确定在作图时作为各样本数据点的标志变量。
7.【WLS Weight】:如有加权变量,利用加权最小二乘法代替普通最小二乘法,给观测值施加不同的权重,可以补偿或减少采用不同测量方式所产生的误差。但应注意,自变量和因变量不能作为加权变量使用。
8.打开【Statistics】对话框,弹出输出统计量对话框。
(1)【Regression Coefficients】回归系数栏:
①【Estimates】输出回归系数B及其标准误、标准化回归系数Beta值、T值、P值。这是系统默认的选项,操作时不用改变。
②【Confidence intervals】输出每个回归系数95%的置信区间。
③【Covariance matrix】多重回归分析时输出各个自变量的相关系数矩阵和方差、协方差矩阵。
(2)与模型拟合及拟合效果有关的选项:
①【Model fit】输出产生回归方程过程中引入和剔除回归方程的变量列表,并给出有关拟合优度的检验,包括:复相关系数R、判断系数R2、校正R2、估计值的标准误及ANOVA方差分析表。这也是系统默认项。
②【R Square change】输出每个自变量引入模型后引起判定系数R2值和F值的变化量。
③【Descriptives】输出符合判据要求的观测值的数量、变量的平均数、标准差、相关系数矩阵和单侧检验显著性水平矩阵。
④【Part and Partial Correlations】输出方程各自变量与因变量之间的部分相关系数与偏相关系数。
⑤【Collinearity diagnostics】输出一些诊断共线性的统计量,如特征根(Eigen values)、方差膨胀因子(VIF)等。
(3)【Residuals】设置残差选项:
①【Durbin-Watson】:输出Durbin-Watson统计量以及可能是异常值的观测量诊断表。
②【Casewise diagnostics】:输出观测量诊断表。
③【Outlines outside standard deviation】:设置异常值的判据,默认为大于等于3。
④【All cases】:对所有样本数据进行诊断。
9.打开【Plots】选择残差图形的对话框,可以利用各种残差图形对残差进行分析,如绘制残差图、残差直方图和残差正态分布累积图。
(1)选择左侧变量列表中任意两个变量的组合,分别送入Y、X轴变量框中。若绘制多个散点图,可单击【Next】,重新指定Y变量和X变量。最多可绘制9个散点图。可选择的作图源变量有:因变量DEPENDNT、标准化预测值ZPRED、标准化残差ZRESID、剔除残差DRESID、修正后的预测值ADJPRED、学生化残差SRESID、学生化剔除残差SDRESID。
(2)【Standard Residual Plots】:选择输出标准化残差图。【Histogram】是带有正态曲线的标准化残差直方图;【Normal probability plot】是残差的正态分布累积图(P-P图)。
(3)【Produce all partial plots】输出每一个自变量的残差相对于因变量残差的散点图。
10.打开【Save】保存变量的对话框。
(1)【Predicted Values】栏,选择输出因变量的预测值。
①【Unstandardized】:非标准化的预测值。②【Standardized】:标准化的预测值。③【Adjusted】:修正后的预测值。④【S.E.of mean predictions】:预测值的标准误。
(2)【Distances】栏,计算并保存自变量的一个观测值与所有观测值的均值的距离。
①【Mahalanobis】:马氏距离,是一种测量自变量观测值与所有观测值均值差异的测度,把马氏距离数值大的观测值视为异常值。
②【Cook’s】:库克距离,用于测量一个特殊的观测值被排除在回归系数的计算之外时,所有观测值的残差有多大变化的测度。库克距离大的观测值若被排除在回归分析之外时,会导致回归系数发生较大的变化。一般来说,库克距离大于1,则该观测点可能为强影响点。
③【Leverage values】:中心点杠杆值,用于测量回归拟合中一个数据点对回归方程拟合度的影响,其值介于0和(N-1)/N之间。若该值为0,则说明该点对回归拟合没有影响。该值越大,对回归拟合的影响越大。
(3)【Prediction intervals】栏,选择输出预测区间。
①【Mean】:均值预测区间的上限和下限。②【Individual】:单一观测值预测区间的上限和下限。③【Confidence Interval】:设置置信区间,默认值为95%,取值范围在1%—99%。
(4)【Residuals】栏,选择输出观测值与模型预测值之间的残差值。
①【Unstandardized】:非标准化残差,观测值与预测值之间的差异值。
②【Standardized】:标准化残差,其均值为0,方差为1。
③【Studentized】:学生化残差。
④【Delete】:剔除残差。
⑤【Studentized delete】:学生化剔除残差。
11.打开【Options】对话框,设置变量判据和缺失值的处理等。
(1)【Stepping Method Criteria】栏:设置变量进入模型或从模型中剔除的判据。
①【Use probability of F】:采用F值检验的概率值作为判据。Entry:0.05,这是变量进入方程的标准概率,默认Pin=0.05,可选择0—0.09之间的值。Removal:0.10,这是变量移出方程的标准概率,默认Pout=0.10,可选择0.10—1之间的值。
②【Use F value】:采用F值作为判据。Entry:当一个变量的F值大于等于输入值时,该变量引入模型中。Removal:当一个变量的F值小于等于输入值时,该变量从模型中剔除。
(2)【Include constant in equation】选项,回归方程中含有常数,这是系统默认的选项。
(3)【Missing Values】栏:选择缺失值处理。
①【Exclude case list wise】:凡是带有缺失值的观测值都不参与分析。
②【Exclude case pair wise】:剔除成对数据中至少含有一个缺失值的数据。(www.xing528.com)
③【Replace with mean】:如果某变量存在缺失值,则用该变量的均值替代缺失值。
【案例分析】
例如,某校研究人员为了考察教师的教育水平、起始薪金、雇佣时间和经验对教师当前薪金的影响,收集了474名教师在教育水平、起始薪金、雇佣时间和经验上的数据与当前薪金数据,详见下表。试用多元线性回归分析的方法为教师当前薪金寻求一个恰当的回归模型。
1.SPSS操作步骤
(1)根据题目要求建立SPSS数据文件如下图。
数据文件结构图
(2)打开数据文件,首先分别以“教育水平”“起始薪金”“雇佣时间”和“经验”为自变量,以“当前薪金”为因变量绘制散点图,观察自变量与因变量之间是否存在线性关系(具体操作参见相关分析、相关步骤)。
(3)单击【Analyze】—【Regression】—【Linear】菜单项,打开【Linear Regression】主对话框。将“当前薪金”移至【Dependent】栏中,将“教育水平”“起始薪金”“雇佣时间”和“经验”移至【Independent(s)】栏中。【Method】栏选择【Stepwise】。进入如下界面:
多元线性回归主对话框
(4)打开【Statistics】对话框,勾选【Regression Coefficients】选项组中的【Estimates】,接着勾选【Model fit】输出常用统计量,选择【Collinearity diagnostics】进行共线性诊断,勾选【Residuals】选项组中的【Casewise diagnostics】进行奇异值辨别,在【Outliers outside】参数框中输入3。点击【Continue】返回主对话框。
输出统计量对话框
(5)打开【Plots】对话框,将*ZPRED移至【X】,将*SDRESID移至【Y】;点击【NEXT】到下一页,将*ZPRED移至【X】,将*ZRESID移至【Y】。点击【Continue】返回主对话框。
(6)打开【Save】对话框,勾选【Predicted Values】(预测值)和【Residuals】(残差)选项组中的【Unstandardized】,点击【Continue】返回主对话框。
(7)单击【OK】,即可执行SPSS命令。
2.输出结果分析
(1)引入/剔除变量表:
Variables Entered/Removeda
(续表)
a.Dependent Variable: 当前薪金
从上表中可以看出,4个自变量经过逐步回归过程都进入了回归方程,没有被剔除的自变量。该表显示模型最先被引入的自变量为起始薪金,第二个被引入模型的是变量经验,接着是雇佣时间,最后是教育水平。
(2)模型汇总:
Model Summarye
a.Predictors: (Constant),起始薪金
b.Predictors: (Constant),起始薪金,经验(以月计)
c.Predictors: (Constant),起始薪金,经验(以月计),雇佣时间(以月计)
d.Predictors: (Constant),起始薪金,经验(以月计),雇佣时间(以月计),教育水平(年)
e.Dependent Variable: 当前薪金
该表显示模型的拟合情况。表中给出了模型的复相关系数(R),判定系数(R Square),校正后的判定系数(Adjusted R Square),估计值的标准差(Std.Error of Estimate),根据校正后的判定系数值。可以看出模型4解释的变异最大,建立的回归方程比较好。模型4的校正R2值为0.809,说明自变量可以解释因变量变异的80.9%。
(3)方差分析表:
ANOVAa
a.Dependent Variable: 当前薪金
b.Predictors: (Constant),起始薪金
c.Predictors: (Constant),起始薪金,经验(以月计)
d.Predictors: (Constant),起始薪金,经验(以月计),雇佣时间(以月计)
e.Predictors: (Constant),起始薪金,经验(以月计),雇佣时间(以月计),教育水平(年)
上表输出的结果中给出了模型、因变量的方差来源、方差平方和、自由度、均方、F值以及显著性水平,其中方差来源包括回归、残差和总平方和。该表显示了对拟合的四个模型的方差分析检验结果。从表中统计分析输出的结果可知,四个模型均有统计学意义。但我们还需要对模型内的各项回归系数的有效性进行检验。
(4)回归模型系数表:
Coeきcientsa
a.Dependent Variable:当前薪金
该表为多元线性回归模型的系数列表。表中分别显示了四个回归模型的非标准化的回归系数B值和标准误、标准化回归系数Beta值、t值以及其显著性水平、共线性统计量中的容许度和方差膨胀因子。从表中可以看出模型4中四个变量的系数和常数项都具有统计学意义。从容许度和方差膨胀因子的值来看,模型4中的自变量存在一定的共线性,但不是很严重,因为经验表明,当0<VIF<10时,不存在多重共线性;当10≤VIF<100时,存在较强的多重共线性;当VIF≥100时,存在严重多重共线性。
(5)模型外的变量:
Excluded Variablesa
a.Dependent Variable:当前薪金
b.Predictors in the Model:(Constant),起始薪金
c.Predictors in the Model:(Constant),起始薪金,经验(以月计)
d.Predictors in the Model:(Constant), 起始薪金,经验(以月计),雇佣时间(以月计)
该表显示的是每个回归方程模型外的各变量的有关统计量,表中输出的结果从左到右依次为模型、用来判断变量下一步能否进入方程的标准化回归系数、t值以及其显著性水平Sig.值。接着是偏相关系数和共线性诊断表。可见模型方程外的各变量偏回归系数经过检验,概率P值均小于0.10,故可以引入方程。
(6)共线性诊断:
Collinearity Diagnosticsa
a.Dependent Variable:当前薪金
上表输出的结果给出了回归模型的编号、特征值序号、特征值、条件指数、方差比。在方差比栏中,理论上每一个变量的总方差被分解为若干个方差之和,其和为1。如果同一特征值序号上若干系数方差比例较大,则说明它们之间存在相关。
(7)观测值诊断表和残差描述性统计表:
Casewise Diagnosticsa
a.Dependent Variable:当前薪金
上表为观测值诊断表,表中显示了被怀疑为奇异值的观测量个案的标准化残差、对应的当前薪金数额、预测值以及残差值。
Residuals Statisticsa
(续表)
a.Dependent Variable:当前薪金
该表为回归模型的残差统计量,表中最左侧从上到下依次给出了预测值、标准化预测值、预测值的标准误、校正后的预测值、非标准化残差、学生化残差、剔除残差、标准化剔除残差、马氏距离、库克距离、中心点杠杆值的最小值和最大值、均数、标准差和观测量的书目。根据3σ原则,标准化残差或者学生化残差的绝对值大于3对应的观测值为异常值,从表中可以看出,确实存在小部分异常值。
(8)回归标准化残差的直方图和P-P图:
上图为标准化残差的直方图,正态曲线也被显示在直方图上,从图中可以看出样本的残差近似于正态分布。为进一步观察残差是否服从正态分布,我们可以观察残差的正态分布P-P图,如下图。
上图为回归标准化的正态P-P图,该图给出了观测值的残差分布与假设的正态分布的比较。由图可知,代表标准化残差值的散点分布靠近直线,但仍存在一些偏离值。根据以上两个图,我们可以判断标准化残差基本呈正态分布。
(9)因变量与回归标准化预测值的散点图:
当前薪金与标准化残差的散点图
该图显示的是因变量与回归标准化预测值的散点图,是以“当前薪金”为横坐标轴,以标准化残差为纵坐标轴的散点图。用于观察残差是否有随因变量增大而改变的趋势,用来诊断因变量的独立性。从图中可以看出,标准化残差值的点绝大部分落在绝对值为2.5的区间内,一小部分落在2.5之外。结合残差的描述性统计表,我们可以确定确实有个别异常值。
综上所述,多重线性回归分析结果显示,474名教师的教育水平、起始薪金、雇佣时间和经验与教师的当前薪金存在显著的多重线性关系。自变量解释了整个因变量变异程度的80.9%(校正的R2=0.809)。建立回归方程为:
其中,x1代表起始薪金;x2代表经验;x3代表雇佣时间;x4代表教育水平。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。