首页 理论教育 引入虚拟解释变量的方式及实践

引入虚拟解释变量的方式及实践

时间:2023-05-25 理论教育 版权反馈
【摘要】:4.解释变量包含多个定量变量和多个定性变量以加法形式引入虚拟变量,第2种和第3种情况很容易推广到包含多个定量变量和多个定性变量,总体回归模型一般形式为此模型解释变量部分包含k个定量变量和l个定性变

引入虚拟解释变量的方式及实践

计量经济学模型中,引入虚拟变量的基本方式有两种:其一是加法方式,以探索在虚拟变量不同水平下,模型的截距项是否存在显著差异;其二是乘法方式,以探索相关定量解释变量的在虚拟变量的不同水平下,斜率项是否存在显著差异。

(一)以加法方式引入虚拟变量

以加法方式引入虚拟变量的计量模型一般形式为

式(7-3)所设定的计量经济模型是在原有定量解释变量x=(x1…xk)的基础上,通过加法的形式引入l个虚拟变量,以探索虚拟变量在不同状态下截距项间的关系。以加法形式引入虚拟变量时,根据模型解释变量中是否含有定量变量、定性变量的个数和定性变量的水平个数,可以分为四种基本情形:其一是解释变量仅含一个二水平的定性变量;其二是解释变量包含一个定量变量和一个二水平的定性变量;其三是解释变量包含一个定量变量和一个两种以上水平的定性变量;其四是解释变量包含多个定量变量和多个定性变量。

1.解释变量仅含一个两水平的定性变量

由于定性变量只有两个水平,且总体模型含有截距项,只能引入一个虚拟变量,此种情况下总体回归模型的基本形式为

假定随机扰动项u满足高斯-马尔科夫假定,那么总体回归函数为:

由此可得

E(Y/D=0)=β0

E(Y/D=1)=β0

如果能通过给定的样本点证明α显著不为零,首先意味着被解释变量Y在定性变量决定的两种水平状态下均值存在显著差异,另一方面可以证明两者之间相差α个单位。方差分析的本质就是判断一个或多个分类型的自变量对一个数值型的因变量是否有显著影响;此处的虚拟变量D所代表的两水平定性变量就是一个分类型自变量,因此,模型(7-4)具有单因素两水平方差分析的所有功能,与此同时,模型(7-4)还能直接估计两种情况下被解释变量条件均值的差异。因此,解释变量仅含虚拟变量的回归模型也称为方差分析模型。

例如,探索居民户籍属性对收入的影响时,假定式(7-4)中Y为居民年均收入,D为用于测量居民户籍属性的虚拟变量,D=1代表城镇居民,D=0代表非城镇居民,此时式(7-4)的意义是在保证影响居民收入的其他因素(职业、受教育程度等)保持不变的情况下,仅探索户籍差异与居民收入之间的数量关系,当随机扰动项u满足高斯-马尔科夫假定时,可知:

非城镇居民的年均收入为

E(Y/D=0)=β0

城镇居民的年均收入为

E(Y/D=1)=β0

利用给定的样本点对式(7-5)进行参数估计,记估计结果为

在对式(7-6)进行模型检验的过程中,如果能证明α显著不为零,则一方面说明城乡居民年均收入存在显著差异,另一方面也给出了城乡居民年均收入差距的估计值为

2.解释变量包含一个定量变量和一个二水平的定性变量

由于定性变量是二水平因素且总体回归模型含有截距项,因此,只能引入一个虚拟变量,此种情况下总体回归模型的基本形式为

如果随机扰动项u满足高斯-马尔科夫假定,那么总体回归函数:

由此可得

E(Y/D=0)=β01 X

E(Y/D=1)=β0+α+β1 X

其中,α称为截距差异系数。

总体回归函数(7-8)可用图7-1表示:

图7-1

图7-1解释变量包含一个定量变量和一个二水平的定性变量总体回归方程示意图

例如由经济学理论可知,居民消费支出主要受可支配收入决定,另外还需要考虑物价水平、消费习惯等因素,对于居民消费行为的长期考察,还需要考虑自然灾害战争传染病暴发、消费政策等导致居民消费环境发生改变的突发性因素。假定除可支配收入和突发性因素之外的其他影响居民消费支出的因素保持不变,仅探索可支配收入和突发因素对居民消费支出的影响,如果采用加法形式,居民消费支出模型可以设计为式(7-7)的形式,假定式(7-7)中Y为居民消费支出,X为居民可支配收入,D为用于测量突发性因素的虚拟变量,D=1代表突发性因素发生之后,D=0代表突发性因素发生之前。

利用样本点对式(7-8)进行参数估计,即得到的样本回归函数为

在对式(7-9)进行检验的过程中,通过对结论α=0进行假设检验,可以判断突发因素发生前后居民消费行为是否发生改变。

3.解释变量包含一个定量变量和一个两种以上水平的定性变量

假定定性变量具有k个水平,考虑到加法形式可能引起的多重共线性,引入k-1个虚拟变量D1、…,Dk-1测量该定性变量,此种情况下总体回归模型的基本形式为

如果随机扰动项u满足高斯-马尔科夫假定,那么总体回归函数:

由此可得

例如,探索受教育水平和可支配收入对居民消费支出的影响,假定影响消费支出的其他因素均保持不变,仅考察受教育水平和可支配收入差异带来的影响;受教育水平设定为研究生学历、本科及大专学历、高中学历、其他学历4种类型,引入3个虚拟变量对受教育水平进行测量:

易知D1、D2、D3取值为1、0、0时代表该居民为研究生学历,为0、1、0时代表该居民为本科及大专学历,为0、0、1时代表该居民为高中学历,为0、0、0时代表该居民为其他学历。那么,总体回归方程为

其他学历人群消费支出与可支配收入之间的关系为

E(Y/D1=0,D2=0,D3=0)=β01X(www.xing528.com)

高中学历人群消费支出与可支配收入之间的关系为

E(Y/D1=0,D2=0,D3=1)=β031X

本科及大专学历人群消费支出与可支配收入之间的关系为

E(Y/D1=0,D2=1,D3=0)=β021X

研究生学历人群消费支出与可支配收入之间的关系为

E(Y/D1=1,D2=0,D3=0)=β011X

利用样本点对式(7-12)进行参数估计得到样本回归方程:

在对式(7-12)的统计检验过程中可以通过判定α1=0、α2=0和α3=0的t检验,分析高中学历人群、本科及大专学历人群、研究生学历人群与其他学历人群之间是否存在显著差异;另外可以对α12=0、α13=0、α23=0、α123=0进行联合假设检验,以判定两种学历人群与其他学历人群是否存在差异,以及学历是否对消费支出不产生显著影响。

4.解释变量包含多个定量变量和多个定性变量

以加法形式引入虚拟变量,第2种和第3种情况很容易推广到包含多个定量变量和多个定性变量,总体回归模型一般形式为

此模型解释变量部分包含k个定量变量和l个定性变量,第i个定性变量共有mi个互斥的水平,考虑到模型含有截距项,引入mi-1个虚拟变量进行测量。如果随机扰动项u满足高斯-马尔科夫假定,那么总体回归函数:

例如,探索化妆品消费支出的影响因素,化妆品消费支出受产品价格水平X1、居民可支配收入X2以及产品质量X3等定量因素影响,也受到居民的户籍属性和性别等定性变量的影响,一般认为城镇居民化妆品消费支出高于农村居民,女性化妆品消费支出高于男性,即

总体回归模型为

总体回归方程为

其中,含有4种类型:

农村男性

E(Y/D1=0,D2=0)=β01X12X23X3

农村女性

E(Y/D1=0,D2=1)=β021X12X23X3

城镇男性

E(Y/D1=1,D2=0)=β011 X12 X23 X3

城镇女性

E(Y/D1=1,D2=1)=β0121X12X23X3

利用样本点对式(7-17)进行参数估计得样本回归方程为

在对式(7-17)进行参数显著性检验时,可对α1=0以及α2=0两个结论进行t检验,借此判断居民的性别和户籍属性是否对化妆品消费支出产生显著影响。

需要说明的是,在模型(7-16)中虽然定性因素都是二水平变量,且引入两个虚拟变量,但只要样本有足够的代表性,一般不会引起完全多重共线性;因为D1+D2=1只有在城镇男性和农村女性两类人群中出现,由于D1、D2分别代表户籍和性别两种定性因素,两个定性因素间不存在“非此即彼”的关系,对于城镇女性D1、D2同时为1,对于农村男性D1、D2同时为0,因此,只要按照虚拟变量个数设置原则利用虚拟变量对定性因素进行测量,一般不会落入“虚拟变量陷阱”。但按照随机原则进行抽样时,抽取到满足D1+D2=1的样本点并不是不可能事件。例如,对含有N1个农村男性、N2个农村女性、N3个城市男性、N4个城市女性的总体,即N=N1+N2+N3+N4通过不重置抽样的方法,抽取出样本容量为n的样本,只要n≤N2或者n≤N3成立,样本中只包含城镇男性和农村女性的概率为,其中n2为样本中包含的农村女性个数,0≤n2≤n。如果在抽样过程中,遇到这种特殊的样本点,可以通过增加样本容量或修改抽样方法等手段进行弥补。

(二)以乘法方式引入虚拟变量

定性因素对被解释变量的影响不仅可能表现在截距项上,也有可能影响定量变量前的偏回归系数,以乘法形式引入虚拟变量,总体回归模型的一般形式为

如果随机扰动项u满足高斯-马尔科夫假定,那么总体回归函数:

例如,居民家庭教育支出Y除了受到收入水平X的影响之外,还受到家庭有无教育适龄子女的影响。一般认为随着家庭收入水平的提升,家庭教育支出的边际消费倾向可能发生改变,为探索子女年龄特征对家庭教育支出边际消费倾向的影响,利用虚拟变量测量“有无适龄子女”这一家庭子女年龄结构属性特征,设置虚拟变量取值为

总体回归模型形式为式(7-19),有无教育适龄子女家庭的教育消费支出期望分别为:

无教育适龄子女家庭

E(Y)=β01X

有教育适龄子女家庭

E(Y)=β0+(β1+α)X

利用样本点对式(7-20)进行参数估计得到样本回归函数为

在对总体回归函数进行检验时,可以通过t检验判断α是否显著不为0,借此判断家庭子女年龄特征是否对家庭教育消费支出的边际消费倾向产生显著影响。

加法形式引入虚拟变量,本质上仍是乘法形式,以模型(7-7)为例,对于模型Y=β01 X+αD+u而言,截距项β0对应着一个取值全部为1的“隐藏”的解释变量,不妨将其记为X0,那么模型(7-7)可以改写为

模型(7-22)从形式上看,仍是乘法形式引入虚拟变量。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈