具体而言,回归断点设计是有两类,一类叫确定性(sharp)回归断点设计,还有一类叫模糊(fuzzy)回归断点设计。所谓的确定,意思是说,在断点处,一个人接受处理的概率瞬间从0~1(或者从1~0)。还是回到高考的例子,如果我们的处理变量是是否上大学的话,那么过了分数线就上大学,不过分数线就不上大学,这是一个0和1的黑白分明的变化,非常直接,也非常确定。
为了讨论方便,我们需要采用一些符号。还是回到上面的例子,上大学与否的变量表示为D,X代表了高考成绩,c是分数线,1{}代表一个指示函数,如果X≥c,那么表示分数过了分数线,则D=1。那么,我们有
显然,对于处理变量D而言,如果一个人的成绩过了分数线,那么D实际上就取值为1,否则就是0,这是非常确定的。甚至说,X=c,表示一个人的分数踩线了,那么这个人接受处理变量影响的概率就是1。但如果一个人只比分数线低了那么一点点,那接受处理的概率立刻变成0了。也就是说,就算差0.5分,也进不了大学。如果我们用ε来表示一个很小的数字,那么当X的取值为c-ε的时候,进入大学读书的概率就是0。
回到因果推断的问题。如上文所述,回归断点设计关心的对象是那些分数在分数线上下浮动的人,分数线上下的这些人在响应变量Y上的差异,构成了我们想研究的因果效果。所以说,一个理想的情况就是看分数线上下的很小范围,一些人上了大学,他们的收入情况怎么样。另外一些人没有能够上大学,他们的收入情况怎么样。各自做一个数学期望,并计算其差值。这样,我们就估算出了因果效果,用SRD表示sharp regression discontinuity,我们有:
针对这个公式,有一些问题需要解释一下。在这个公式中,Yi(1)|Xi=c没有什么问题。在X=c的时候,说明一个人实际上是上了大学了(虽然是踩线),那么他的收入Yi(1)|Xi=c自然是能够直接观测到的。但是Yi(0)|Xi=c这一表达式却有问题,这是因为X=c的时候,踩着分数线的人肯定会上大学,我们因而难以去计算他们的Yi(0)|Xi=c,因为根本就找不到这类上线以后又假设其没上大学的情况下的收入状况。
另外一个需要解释的问题在于,确定性回归断点设计在一定程度上违背了前面谈到的正值假设。回顾前面的章节的内容,所谓正值假设,是说我们所研究的个体,他们接受处理变量的概率应该是在0~1之间的数,但不能为0也不能为1,如果是取值为0或者1的话,就属于特别极端的情况,不适宜用于因果分析。确定性回归断点设计公式却存在违背正值假设的情况,过了分数线的人其上大学的概率为1,没过的就是0。因此,如果我们要估计因果效果的话,我们需要再增设一些条件,以尽可能地保证正值假设成立。具体如下:
这个假设条件的意思是,我们可以试着寻找一个替代性方案,虽然对于踩分数线的那些人,我们不知道如果他们没上大学的话收入E[Yi(0)|Xi=c]取值如何,但是我们知道那些马上就要到分数线但没有上大学的人的收入情况。那么,我们在c的基础上减掉一个很小的数ε,然后去看这些没上大学的人的平均收入情况E[Yi(0)|Xi=c-ε]。这一收入状况约等于那些上了大学的人假设没有上大学的情况下的反事实状态,他们的响应变量的取值情况应该是比较接近的,即E[Yi(0)|Xi=c]≈E[Yi(0)|Xi=c-ε]。
为了让这种“约等于”的状态成立,我们就需要做一个连续性的假设,什么叫连续性的假设呢?我们将类似X这样的变量称为使动变量(forcing variable)(例如高考成绩),那么连续性假设认为,响应变量的潜在取值Y(0)随着使动变量的变化,应该是一个连续的光滑的曲线(当然,如果接受处理变量影响的概率是从1~0,那么我们需要潜在取值Y(1)连续变化)。总而言之,连续性假设要求,潜在变量Y(1)和Y(0)的变化在临界值前后不能有跳跃。
我们为什么要做这个假设呢?实际上很简单,只要这个假设存在,那么下面的极限计算就能成立:
直观地讲,如果Y的潜在取值是一个光滑变化的曲线的话,它就不会在使动变量的分数线c处有突然之间一个高低波动,那么踩着高考线的这些人,他们没上大学的收入情况就和那些马上到分数线的没上大学的人的收入情况非常接近(毕竟Y(0)的变化是平滑的)。另一方面,如果Y的变化不是平滑的,而是跳跃性的,那么那些没上大学的人虽然接近分数线,但是也有可能有一些系统性的原因造成他们与那些踩线进大学的人之间具有本质差异,这样,我们就不能够使用确定性回归断点设计了。
基于连续性假设,那么确定性回归断点设计的因果关系就能够用上面极限的方式表达出来。需要注意的是,这里求极限是从两个方向趋近的,一侧的极限计算是从大到小,指的是过了分数线的那些人向分数线趋近。另一个则是从小到大,指的是那些没有过分数线的人向分数线趋近。它们的期望值的差值就构成了一个可以经验分析的问题,亦即我们感兴趣的因果效果。
对于回归断点设计而言,最开始的操作应该是画图,通过图示的方法看是否在使动变量断点处c存在响应变量的取值跳跃。如果一项研究连基本的图像都看不出任何断点的话,那这个研究的设计就会很有问题,即很难说得上是断点设计。画图的话,有三类图要特别注意。一类图看的是响应变量的观测值。既然称为回归断点设计,就要求一项研究的响应变量Y在断点处要有明显的变化,或者说截断。这个是不言自明的。例如,如果Y轴是收入的话,X轴是高考成绩,分数线的临界点是c。我们期望看到的基本模式是,Y的取值在c的左右比较上有一个跳跃。如果在分数线以上的人收入比在分数线以下的收入在c处明显的高,那说明上大学的人比不上大学的人收入高。因此,回归断点设计要求响应变量在使动变量的断点处c有一个变化,否则,便不存在回归断点设计了。
另一类图则关注的是使动变量,就是高考成绩自身的变化。这个变量在设定的断点处“不应该”有一个跳跃。为什么是这样呢?因为如果高考成绩在c的上下本身就有一个断点,那就说明一定有别的原因造成高考成绩在临界点处有断点。由于高考成绩是决定被研究对象是不是上大学的唯一因素,那么,如果别的原因改变了个体的高考成绩,那么这个看不到的别的原因也会进而改变了上大学的概率。同时,我们知道响应变量在断点处有一个跳跃,此时我们的一个合理怀疑是,响应变量在断点处的跳跃可能有别的原因在起作用,而不是完全取决于是不是上大学。因此,我们不希望看到使动变量(高考成绩)在c的前后有显著的变化。
这个问题如果换成一般的有向无环图(directed acyclical graph)的话,可以假设我们有一个看不到的混淆变量U存在,U影响了高考成绩X,高考成绩进而影响一个人是不是上大学D,D又影响了个体的收入Y。同时U有可能影响Y,这样,D和Y的关系就会被混淆,这是一个非常典型的混淆因素的情况(见图7-1)。
图7-1 混淆因素的影响示例
这里可以举个简单的例子。比如性别这个变量被遗漏了。比如说在分数线以下的都是女的,分数线以上的都是男的,结果发现,成绩在分数线这里突然之间变化了,那有可能是因为性别变量在发挥作用。从分数线下面到分数线上面,我们观察的群体就从女同学变成男同学了。同时,我们都知道性别会影响收入。此时,如果高考成绩分数线上下人们的收入有显出差异,我们实际上不知道这种差异是归因于是否上大学、性别差异还是二者皆有。
实际上,使动变量的连续性假设还有更为微观的情况存在。很多时候,如果一个研究中的使动变量在临界点上下有变化的话,很有可能是因为个体在“操纵”这样一个断点。比如,在经典的作文竞赛的例子中,有些人可能知道自己的作文能力是什么水平,他们会预计一下自己的可能分数。有可能他们认为如果自己努力一把,就有可能过线,但如果自己不努力,就是在线下徘徊。所以,一旦发现作文成绩这个使动变量在临界点处有一个断点的话,很有可能是一些徘徊在分数线下的人有理性的预期,知道努力一把就过线,过线会有一些奖励等。那么,理性的个体就会在此时非常拼命地学习,提升最后过线的概率。这种情况下,我们在分析对比刚刚过线的和刚刚不过线的人的时候,这些刚刚过线的人实际上里面有一部分人“本不应该”过线的,这时候我们的结论肯定受到影响。毕竟我们本来希望分析一个自然状态下,线上和线下的群体差异,但如果有一个人为预期操纵的过程,影响了过线的概率,那么这些看到过线的人就不再是自然状态(也就是说,有个人努力这一变量进入进来混淆了因果效果)。这些潜在的个人操纵或者理性化努力,相当于把一些控制组的人(没有过线的人)“挪到了”实验组里去,自然,我们的结论就会受到质疑了。综上所述,使动变量不应该在临界点处有跳跃。
第三个图,关注的是其他控制变量,要求它们在断点处也不应该有变化。在社会科学研究中,类似的混淆变量有很多,比如性别、年龄等变量。理想情况下,这些因素在临界点处应该是一个平滑的曲线,不应该有一个断点。实际上,这里要求它们和使动变量的变化模式是一样的,因为一旦这些混淆变量有断点的话,就相当于它们作为混淆因素介入到因果关系中去,从而影响我们估计的因果效果。
综上所述,在进行回归断点设计时,我们需要用作图法来作一些简单的分析,这些分析可以帮助我们了解一些必要的前提假设是否成立。基本上,除了响应变量在断点处有变化以外,使动变量和其他混淆变量都不应该在断点处有变化。换句话说,它们应该是一个在断点前后呈现出连续平滑的曲线模式,而不应该有任何的跳跃。否则的话,回归断点设计就不是设计得很好,相应的因果推论结论就不可靠。(www.xing528.com)
在确定了这些基本模式后,后续的分析工作相比较而言是很简单的。比如,我们确定好这样一个断点为高考成绩的某个分数之后,进而确定将高考成绩3分以上的和高考成绩3分以下的这些人囊括进来,那么,我们只需要对比一下这两组人的收入差异即可。这里,我们有两种分析策略可供选择。一个分析策略是,计算以下两组人的平均收入情况,然后作类似于T检验一样的分析,非常简单。如果用公式表示,可以写为
其中,μ+(x)是指分数线“上面”一定区间内的个体的平均收入,而μ-(x)是指分数线“下面”一定区间内的个体的平均收入,二者的差异代表了非参数方法估计出的因果效果。
另外一个分析策略则是参数估计。参数法主要是将分数线上下个体收入的变化趋势展现出来。例如,有可能随着高考成绩的提升,人们的收入也随之提升,只是在分数线上下,有一个提升的错位。那么为了展示出这种错位,我们需要分别在临界点上下分别拟合模型。由于这些模型隐含了一些参数假设,我们称之为参数估计方法。假设我们只是拟合了一个很简单的回归曲线,其中自变量为使动变量(高考成绩),响应变量为我们关心的结果变量(例如收入),则分数线以下的个体的拟合曲线为
同理,分数线以上的个体的拟合曲线为
由于在临界点处,X=c,因此在临界点两个模型的预测值之差就是我们关心的因果关系:
也就是说,因果关系的估计值为两侧模型的截距之差。
除了确定性的回归断点设计之外,还有一种类型叫模糊回归断点设计。模糊的回归断点设计思路是这样子的,当我们在跨过使动变量临界点c的时候,我的接受特定处理变量影响的概率不再是从0变到1(或者从1变到0),而是“更有可能”从0变成1(或者从1变到0),这和上面提到的例子不一样。在上面的例子中,我们假定只要过了分数线,人们就会上大学,如果没过线,就一定不上大学。在这种设计中,我们认为上大学的概率从0变成了1。但是现实情况下,这种情况是不太可能发生的。一些人虽然成绩没有达到分数线,但是有其他的途径(例如学科竞赛获奖)来获得进入大学读书的机会。同理,即使过了分数线,也有可能因为其他的情况放弃或者丧失入读大学的机会。当然,对于大多数人而言,只要分数过线,基本上还是会去上大学的。那么,对于一个群体而言,当跨过分数线以后,上大学的概率会得到显著的提升,这是比较符合现实状况的描述,但这个提升本身不代表是从“完全不可能”上大学提升到“一定”会上大学。正因为如此,我们称之为模糊断点设计,因为对于处理变量而言,它的取值随着使动变量的变化改变的不是那么绝对。
实际上,从某种角度来看,模糊断点设计可以用工具变量的思路进行分析。此时,使动变量就是工具变量。在模糊断点设计的状态下,高考分数和一个人是不是上大学是高度相关的,但也不是如确定性回归断点设计那样完全决定后者。这实际上就是我们讲的“样本不服从”问题,此时自然工具变量就有用武之地了。为了使用使动变量来发挥工具变量的作用,我们需要要求使动变量和最后要研究的响应变量Y之间只能通过是否上大学来实现。同样的,它和那些影响Y的混淆变量之间也不能够产生联系。如果这些条件满足,使动变量就是一个工具变量,它可以用来估计因果效果。
回顾工具变量这一章的内容,我们还需要指出的是,工具变量的因果推论还要满足其他一些假设条件。比如,我们要满足单调性的假设。在回归断点设计中,单调性的假设要求当一个人过了分数线以后,他上大学的概率要高于分数线以下人的概率。在实际生活中,这个假设是非常符合常理的。说白了,它要求分数线以下的人上大学概率要低于分数线以上的人上大学的概率。和工具变量方法一致,这一假设去掉了那些唱反调的人。所谓唱反调,就是过了分数线不上大学,不过分数线反而上大学的人。通过单调性的假设,这种人就可以被排除出去。
如果用公式表达单调性假设,我们可以写成:
另外一个假设是可忽略性假设。在回归断点设计中,可忽略性要求在控制了高考成绩以后,实际上不上大学和收入的潜在状态Y(1)和Y(0)之间是独立的,即:
此外,针对工具变量,还有排除性假设,即使动变量对响应变量的作用仅通过处理变量实现。因此,如果控制了处理变量,使动变量与响应变量独立:
如果这些条件都能够满足,那么后续的计算过程就变成了工具变量方法。回顾工具变量这一章的内容,工具变量所估计的因果效果应该是X对Y的影响比上X对D的影响。如果把这个公式套到回归断点设计里面的话,会发现X对D的影响,就是高考成绩对于一个人是不是上大学的影响,而X对Y的影响,就是高考的成绩对我们关心的响应变量Y的影响。具体而言,X对Y的影响可以用前面的确定性回归中断设计的方法估计出来。X对D的影响可以依葫芦画瓢,分别在临界点的左右做回归模型,只是这时的响应变量是D而不是Y。也就是说,我们暂时把回归断点设计的响应变量设置为D,分别在断点上下拟合模型:
此时,我们就知道,使动变量X对于D的效果为θ+-θ-。基于确定性的回归断点设计,X对Y的影响为α+-α-。此时,如果我们用FRD表示fuzzy regression discontinity,我们有
可以发现,确定性回归断点设计是模糊回归断点设计的一个特例。这是因为,在确定性回归断点设计中,θ+-θ-=1-0=1。因果效果就变成了α+-α-。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。