(一)线性概率模型的形式
线性概率模型(LPM)用线性模型解释虚拟被解释变量,它与一般线性计量经济学模型的唯一区别就是被解释变量是取值仅为0和1的虚拟变量。例如,应届大学毕业生一般面临考研深造和直接就业两个选择,那么影响应届大学毕业生决策选择因素是什么,如果仅考虑家庭收入(X1)和父母受教育年限(X2)两个因素,构建线性概率模型为
其中,,是描述应届毕业生决策的虚拟变量,X1代表家庭收入,X2代表父母受教育年限,u是随机扰动项。
对于某一应届毕业大学生来讲,在给定其家庭收入和父母受教育年限(X1i,X2i)后,即其选择考研深造的概率Pi=P(Y=1/X1=X1i,X2=X2i),那么其选择直接就业的概率为1-Pi=P(Y=0/X1=X1i,X2=X2i),由此易知在给定X1=X1i,X2=X2i条件下,Y的期望为
而由式(7-34)可知,当随机扰动项u满足零期望假定时,
由此可得
因此,总体回归函数E(Y)=β0+β1X1+β2X2描述了个体选择决策Y=1的概率与解释变量之间的线性关系,所谓线性概率模型其内涵也在于此。
结合式(7-36)和式(7-37),β0测量了当X1=0,X2=0时,应届毕业大学生选择考研深造的概率,β1表示当X2保持不变时,X1每变化一个单位,P(Y=1)变化β1个单位,β2表示当X1保持不变时,X2每变化一个单位,P(Y=1)变化β2个单位。但对于二元离散选择模型来讲,P(Y=1)是个体的事前决策变量,虽然E(Y)=P(Y=1),可以取[0,1]内的任何值,但能观测到的仅是个体决策结果0和1。
(二)线性概率模型的参数估计
下面通过一个例子说明线性概率模型参数的实际意义和线性概率模型的缺陷。
例7-2 为探讨已婚妇女参与劳动力市场的意愿,采用线性概率模型研究影响已婚妇女参与劳动力市场意愿的影响因素,设置总体回归模型如下:
Y=β0+β1 A+β2 S+u
其中,,A为已婚妇女的年龄,S为已婚妇女的受教育年限。样本点见表7-5。
表7-5 已婚妇女参与劳动力市场意愿样本点
续表
表7-6 线性概率模型的OLS估计结果
从估计结果来看,年龄对已婚妇女是否参与劳动力市场并无显著影响,受教育年限影响显著,且受教育年限对已婚妇女参与劳动力市场为正向影响,这就意味着受教育年限越长的已婚妇女,越倾向于参与劳动力市场,受教育年限没增加一年,选择参与劳动力市场的概率增加0.10。在给出每一个样本点的拟合值后,就意味着该已婚妇女参与劳动力市场的概率大于等于0.5,Yi的预测值可设为1,否则,设为0,结果见表7-7。
表7-7 拟合值、预测值和实际值
从预测结果来看,30个个体中仅有19个预测准确,总体预测准确率63.33%;实际值为0的12个个体中有7个预测错误,预测准确率41.67%;实际值为1的18个个体中有4个预测错误,预测准确率77.78%。虽然对实际值为1的个体预测准确率较高,但对实际值为0的个体预测准确率非常低。另外,由表7-7可见,个体1和3的拟合值大于1,这显然与概率取值位于[0,1]内的要求是相矛盾的,这正是线性概率模型的缺陷所在。
(三)线性概率模型存在的问题
由模型(7-35)Y=β0+β1 X1+β2 X2+u,可知被解释变量Y服从二项分布,Y取1的概率为β0+β1 X1+β2 X2,取0的概率为1-β0-β1 X1-β2 X2。当Y取1时,随机扰动项u取1-β0-β1 X1-β2 X2,当Y取0时,随机扰动项u取-β0-β1 X1-β2 X2,由于Y仅能取0和1两个值,这就意味着随机扰动项u仅能取1-β0-β1X1-β2X2和-β0-β1X1-β2X2两个值,因此,在线性概率模型中,随机扰动项u为二项分布,其期望为
E(u)=(1-β0-β1 X1-β2 X2)×(β0+β1 X1+β2 X2)+(-β0-β1 X1-β2 X2)×(1-β0-β1X1-β2X2)=0
因此,随机扰动项u仍满足零均值假设。但是,随机扰动项u的方差为
D(u)=(1-β0-β1X1-β2X2)2×(β0+β1X1+β2X2)+(-β0-β1X1-β2X2)2×(1-β0-β1 X1-β2 X2)(www.xing528.com)
=(1-β0-β1 X1-β2 X2)2×(β0+β1 X1+β2 X2)+(β0+β1 X1+β2 X2)2×(1-β0-β1X1-β2X2)
=(1-β0-β1 X1-β2 X2)×(β0+β1 X1+β2 X2)
可见,随机扰动项u的方差是解释变量的函数,存在异方差。异方差可以通过加权最小二乘法进行修正。由于随机扰动项不服从正态分布,因此,小样本下经典回归分析下的各类检验已无法进行;如果样本容量足够大,可以通过中心极限定理分析统计量的近似分布,进行统计推断分析。
2.有可能不位于[0,1]内
由式(7-36)—式(7-38)可知,E(Y)∈[0,1],但作为E(Y)的估计值,由于难以保证既可能大于1也可能小于0,为规避这一矛盾,可以为样本回归方程设定如下约束条件:
以满足其作为概率Pi=P(Y=1/X1=X1i,X2=X2i)估计值的规范性要求。这一约束背后是人为的把大概率事件当成了概率为1的事件,把小概率事件当作零概率事件。
3.可决系数不是线性概率模型拟合优度的精确度量
由于二元选择模型的特殊性,导致样本点呈现出在解释变量的某个点X*之前(或之后)样本点中大部分点被解释变量Y观测值为0、X*之后(或之前),大部分点被解释变量Y观测值为1(如图7-6所示)的变化趋势。这就一方面导致线性概率模型容易出现有可能不位于[0,1]内的情况,另一方面使得利用线性函数“接近”样本点中尽可能多点变得非常困难,导致可决系数测量出的拟合优度普遍较低。如果能找到一条接近样本点变化趋势的样本回归线,则可以大大提高样本回归方程对样本点的解释能力。
图7-6 二元选择模型:线性概率模型
(四)非线性概率模型
为了优化线性概率模型,通过家庭购房决策的例子,分析优化的基本思路。首先建立一个效用函数;在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1表示,而将家庭不购买住房的决策用数字0表示。即
用表示第i个人选择买房的效用,表示第i个人选择不买房的效用,其效用均为随机变量,于是有
其中,Xi表示影响购房决策主要因素,如可支配收入、家庭人口数等,u为随机扰动项。
将式(39)左右两侧对应将去式(7-40),得
即
则有
格林称该模型为潜回归。这是二元选择模型的切入点。称Y*i为过渡变量(潜在的),这个变量是不可观测的。
当效用差Y*i大于零,则应该选“1”,即购房;当效用差Y*i小于零,则应该选“0”,即不购房。亦即
故
此处已经通过Y*i,将自变量与事件发生的概率联系起来了。为概率提供了一个潜在的结构模型。
由E(Yi)=p(Yi=1)=1-F(-α*-Xiβ*),可得
由上述分析可知,对于二元离散选择模型,总体回归函数可以一般性的设置为式(7-42)的形式,现在的问题是F(.)服从何种分布?F(.)既然是分布函数,则必须满足分布函数连续且单调递增条件。分布函数不同就有不同的二元离散选择模型;在线性概率模型中,F(.)被直接设置为了线性函数,这也是导致有可能不位于[0,1]内的主要原因。理想的F(.)应该具有这样的特征:其一,E(Y)=P(Y=1)随解释变量X的变化而变化,但永远落入[0,1]内;其二,当X>X*时,E(Y)随着X的增大极限为1,但趋向于1的速度越来越慢,当X<X*时,E(Y)随着X的减小极限为0,但趋向于0的速度越来越慢。亦即E(Y)与X之间选择S型曲线进行描述较为合理,原则上任何适当的、连续的、定义在实数轴上的概率分布都可以满足上述两个条件,尤其是连续随机变量的分布函数(CDF)可以满足上述两个要求。常用的分布函数有逻辑分布和标准正态分布,分别对应二元Logit模型和二元Probit模型。
表7-8 常用非线性二元离散选择模型
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。