因果推断,就是推断“果”的发生与“因”的发生有某种程度上的关联。换句话说,也就是存在“因果关系”,“因”要发生在“果”之前。在实验设计中,比较实验组与对照组的差异,即处理变量对结果变量的处理效应。但在社会科学研究领域所使用的数据中,大多是观测性数据,往往缺乏反事实案例。
以参加职业培训能否提高职员的收入为例,将参加职业培训作为一个取值为0~1的变量T,1表示参加,0表示未参加,收入作为结果变量,即为Y。那么,对于个体i,其参加职业培训对收入的“影响”可表达为:
即参加职业培训T对收入Y的影响是个体i参加培训(即Ti=1)情况下的收入Y1i与其没有参加培训(即Ti=0)情况下的收入Y0i之差,也就是真正的因果效应。但是,实际情况是:在某个时间上,个体i要么处在参加培训的状态,要么不处在参加培训的状态。所以,对于同一个体i而言,无法同时观测到Y1i和Y0i。因此,在个体i层面上,无法推断因果关系。由于个体差异的普遍存在(谢宇,2006),导致因果推断总是需要在群体层面进行。由于因果推论时还必须遵循稳定单元处理值假定(stable unit treatment value assumption,SUTVA),即处理对于所有受测单元的效果是一致的、稳定的或受测单元彼此互不干扰(Rubin,1980)。所以在群体层面上,有可能得到平均意义上的影响或因果效应,上述案例解释就是参加培训的员工(干预组)因为参加培训而带来的平均收入的变化。(www.xing528.com)
由此我们可以看出推断因果关系的基本挑战:构建反事实,即如果没有参加职业培训,个体i的收入会是多少。因为无法观测到干预组成员i如果没有接受项目干预其结果会如何,所以因果关系推断难题实质上是个缺失数据问题。而在没有反事实信息的情况下,次优的选择是比较干预组与对照组的结果,一般来说,若比较干预组与对照组的结果,因为存在选择性偏差,得到的平均因果效应是有偏的,所以关键就是要找到一个与干预组非常相仿的对照组,换言之,为干预组找到一个好的反事实。常见处理选择性偏差的策略有随机化试验。但使用观察数据探究因果效应时,个体为何接受或不接受试验干预往往并不是一个随机的现象。干预组和对照组在试验干预开始之前就存在差别,即干预前异质性,或一些影响接受试验干预与否的因素并未被观测到或者是不可观测的。倾向值评分匹配就是用来处理干预前异质性问题的常见方法之一。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。