匹配的思路在前面一个章节中已经介绍过,即把倾向值作为一个指标来把实验组和控制组的人进行配对。由于前面一个章节围绕着匹配这一主题,因此倾向值匹配仅仅是作为匹配的一种策略进行介绍。这里,我们有必要进一步审视一下倾向值匹配方法的基本特点。其中特别重要的问题是,和传统的基于回归模型的分析相比,倾向值匹配有什么优势呢?换句话说,匹配一定就比回归模型好吗?这一问题实际上是很多研究者的争论焦点所在。诚然,对于潜在的混淆变量,回归模型,将其作为控制变量纳入模型,我们同样得到的是一个所谓的“净”(net)处理效应。考虑到回归模型的普及性和操作便捷性,将混淆变量总结为倾向值并进行匹配反而显得复杂,甚至“无必要”。那么,究竟是什么原因促使我们采用倾向值匹配的分析策略呢?对于这个问题,社会学研究者戴维哈丁(David Harding)早在2003年的一篇论文中就进行了讨论(Harding,2003)。具体而言,他提出四点理由来说明为什么倾向值匹配比传统的回归分析好。
①倾向值匹配是非参数模型,不受传统线性模型设定方式的限制。
②倾向值匹配保证实验组和控制组的可比性。那些拥有过大过小倾向值的人不会进入最后的分析。
③倾向值匹配因为估计的系数更少,更加有统计效率。
④在拟合倾向值模型的时候,我们关心的是能否通过倾向值的匹配,保证混淆变量在实验组和控制组之间达成平衡。因此传统的一些分析上需要注意的问题(例如共线性)可以不予考虑。(www.xing528.com)
以上这四点理由中,第二点是最重要的。正如前面章节中所展示的,采用回归模型的话,我们是在拟合参数模型。对于特定的数据组合区域,不可避免会用到外推(extrapolation),从而产生过度依赖模型的问题。所以,采用倾向值匹配的话,可以很直观地观察到实验组和控制组之间的个体在混淆变量上的可比性。比如说,那些倾向值特别大或者特别小的人是比较极端的,我们基本上找不到和他们匹配的人。这样的话,在做基于倾向值匹配的分析的时候,这些极端的个体可能要剔除掉。但是,如果我们只是做一个回归模型的话,这些人一直要被考虑进来,从而有可能对我们的分析结果产生不好的影响。除了第二点以外,哈丁列举的倾向值方法的其他优点也是经验研究者比较看重的,比如说非参数性。倾向值匹配不像传统回归模型那样受模型设定方式的限制。可以说,倾向值匹配是一个直来直去的过程,和我们的常识经验更加一致。此外,倾向值匹配更有统计效率,因为匹配后估计的系数更少,研究者甚至不需要考虑很多控制变量,无须估计其系数。在匹配完成之后,通过T检验就能够估计出因果效果了。最后一个优势就是在估算倾向值的时候不在乎共线性等问题。这主要是指在估计倾向值的时候,如果混淆变量之间存在共线性的话,并不影响后续对倾向值的使用。这是因为,倾向值估计的目的不是为了看特定混淆变量的系数和影响力大小,而是看这些混淆变量加在一起多大程度上能够预测一个人进入实验组的概率。也就是说,我们看的是各个混淆变量加在一起的“预测”能力。反观共线性,它之所以是一个问题,是因为当不同的混淆变量彼此高度相关的时候,我们没有办法准确知道特定混淆变量的系数大小,这是系数估计的问题。但我们在用模型去估计倾向值的时候,目的恰恰不是为了看特定混淆因素的系数大小。自然,共线性就不再是一个问题了。
关于倾向值匹配,SAS公司提供了一个很好的分析流程图(见图5-1),这里引用过来供大家参考[1]。基于这一流程图,如果要用倾向值匹配的话,首先要决定一些匹配的基本参数。例如,我们针对混淆变量的哪个特定距离度量进行匹配,如果是卡尺匹配,如何选取半径等。之后,研究者需要决定是采取放回还是不放回匹配,如果采取放回匹配,我们的匹配策略就要考虑到一个人被用了很多次的情况。如果采取不放回匹配,那下一步就要决定是不是要采用最优匹配。如果不采取最优匹配,就要采用传统的贪婪匹配。如果采取最优匹配的话,我们还有一些选择。比如,在一对一或者一对多匹配中,可以固定实验组和控制组的匹配人数比例,一对三,一对四等。当然,也可以放松匹配的比例,有些人是一对一,有些人一对三,有些人一对二。最后,我们也可以选用全匹配策略,这样相当于对整个数据进行“切块”。以上便是倾向值匹配的一般实践流程。
图5-1 匹配法流程图
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。