首页 理论教育 固定效应泊松回归与负二项回归的条件最大似然估计方法研究

固定效应泊松回归与负二项回归的条件最大似然估计方法研究

时间:2023-06-12 理论教育 版权反馈
【摘要】:泊松分布的期望和方差均等于泊松到达率。给定xik和vik的条件下,Yik依然服从泊松分布:由于vik依然不可观测,故无法进行估计。因为以上估计模型均为非线性估计模型,所以估计中均采用条件最大似然估计方法。本章的研究采用了2001—2013年的276个中国地级市面板数据。固定效应泊松回归的最大优点在于允许个体异质性与解释变量相关,但固定效应负二项回归可以估计不随时间而变的变量系数。

固定效应泊松回归与负二项回归的条件最大似然估计方法研究

本章研究的是企业的区位选址,被解释变量是一个地区新增的企业数量,是非负整数的计数变量,并且多数样本中包含零值。因此,在估计方法上首先采用泊松回归(Poisson regression)模型(Coughlin and Segev,2000[6];List and Mchone,2000[121];Guimaraes P,et al.,2003[122]),相比企业选址研究中常用的Logit模型[5],在样本量较大的情况下,谢松回归模型可以避免Logit模型常遇到的违背独立不相关假设的问题。

假设在一个共进行n次相互独立的随机实验中某事件发生概率为p,记该事件发生次数为Y,则Y=y的概率为P(Y=y)=C(1-p)n-y,(y=0,1,…,n)。当p→0,n→∞时,而np=λ>0时,此概率的极限为泊松分布:

在本章的估计模型中,由于被解释变量Y是新增企业数量yik,是个非负整数,假设一个地区某行业新建企业个数服从泊松分布,由解释变量xik所决定,那么,Yik=yik发生的概率由参数为λik的泊松分布决定:

其中,λik >0为“泊松到达率”(Poisson arrival rate),表示在给定解释变量集x ik的条件下,一组实验中企业选址的平均次数。泊松分布的期望和方差均等于泊松到达率。为了保证λik非负,假设Yik条件期望函数为:

E(Yik|xik)=λik=exp(x′ikβ)

由上式可以得到,企业选址发生的期望值与解释变量之间存在对数线性关系,即lnλik=x′ikβ,其中,β为一组待估参数,可以解释为“半弹性”,即当解释变量xik增加微小量时,企业选址的平均次数增加的百分点。

考虑到泊松回归模型要求泊松分布的期望与方差一定相等,即满足“均等分散”假设,但这个特征常常与实际数据不符。现实中,被解释变量的方差常常要大于其期望值,这样就导致“过度分散”的存在。鉴于此,将企业选址决策服从的泊松分布修正为负二项分布。在Yik的条件期望函数的对数表达式中加入一项:

lnλik=x′ikβ+εik

其中,随机变量εik表示条件期望函数中不可观测部分或个体异质性。由上式可得:(www.xing528.com)

λik=exp(x′ikβ)·exp(εik)=uik vik

其中,uik≡exp(εik)为xik的确定性函数,而vik≡exp(εik)>0仍为随机变量。给定xik和vik的条件下,Yik依然服从泊松分布:

由于vik依然不可观测,故无法进行估计。由于vik >0,故假设vik服从Gamma分布(指数分布与卡方分布都是Gamma分布的特例)。vik ~Gamma(1/α,α),其中α>0,故E(vik)=1,而Var(vik)=α。可以看出,负二项回归模型的条件期望仍为E(Yik|xik)=λik=exp(x′ikβ),即负二项回归不影响条件期望,而条件方差则变为下式:

Var(Yik|xik)=uik+αu2ik >uik=E(Yik|xik

所以,在负二项回归中,条件方差大于条件期望。其中,条件方差是α的增函数,故α称为“过度分散参数”。当α→0时,即为泊松回归。所以,实际上泊松回归是负二项回归的特例。

对于究竟选择泊松回归还是负二项回归,在本章中还进行了LR检验。检验的原假设不存在过度分散,即“H0:α=0”,如果拒绝原假设则使用负二项回归,反之则使用泊松回归。关于泊松回归和负二项回归的选择,涉及稳健性和有效性之间的权衡,一般认为泊松回归更稳健,而负二项回归更有效。

由于本章的被解释变量选取的是新增企业数量,所以变量的数据中可能存在大量的零值。因此,笔者不仅进行了标准泊松回归和标准负二项回归分析,还进一步分析比较了“零膨胀泊松回归”和“零膨胀负二项回归”的估计结果,这个过程是根据Vuong统计量进行判断的。若Vuong统计量为正,则考虑使用零膨胀泊松回归或零膨胀负二项回归的估计结果;如果Vuong统计量为负,则选择使用标准泊松回归或标准负二项回归的估计结果。因为以上估计模型均为非线性估计模型,所以估计中均采用条件最大似然估计方法(conditional MLE)。

本章的研究采用了2001—2013年的276个中国地级市面板数据。面板数据不仅可以解决由不可观测的个体差异或“异质性”造成的遗漏变量的问题,特别是不随时间而改变的个体差异,还可以克服时间序列数据中常见的多重共线性问题,从而有利于提高模型估计的精度和有效性。面板数据同时拥有横截面和时间两个维度,样本量大,可以增加估计过程中的自由度,提供更多的个体动态行为信息,提高估计的精确度。面板数据可以使用混合效应、随机效应和固定效应的泊松回归分析三种方法。通过LR检验来判定是否存在个体效应,确定是使用混合效应泊松回归模型还是随机效应的泊松回归模型。关于固定效应和随机效应泊松回归模型之间的选择则借助于豪斯曼检验(Hausman统计量)。固定效应泊松回归的最大优点在于允许个体异质性与解释变量相关,但固定效应负二项回归可以估计不随时间而变的变量系数。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈