首页 理论教育 匹配法:一种降低研究偏误的有效方法

匹配法:一种降低研究偏误的有效方法

时间:2023-07-08 理论教育 版权反馈
【摘要】:匹配法背后的原理是很简单的。与大学毕业生相比,这些用于匹配的个体只是在高中毕业以后的关键节点上没有上大学,这种差异可以看作影响收入差异的近似的“唯一”因素。但是,需要注意,匹配法和随机实验还是有所不同的。匹配法的第二个优点在于降低了一项研究对模型的依赖。与这种基于模型进行的统计分析相比,匹配法的实施过程不存在人为设定好的参数模型。否则,匹配法的结论仍然可能存在偏误。

匹配法:一种降低研究偏误的有效方法

匹配法背后的原理是很简单的。在前面章节中,我们曾经举了一个例子,考察被研究对象上大学以后的收入情况,亦即高等教育的收入回报问题。为了确定是否上大学这一处理变量和收入之间是不是存在一定的因果关系,我们需要做的工作是找到另外一些人,这些人他们的特征和上大学的那些人在很多方面都很相像,比如说性别都是男性,户籍都是城市户口,高考的成绩也很接近,高中的学业表现也很接近等。但是与上大学的那些人相比,对比组的人的唯一的区别在于他们都没有上大学。那么,这些没有上大学的个体和上大学个体在收入上的差异就能够近似地看作上大学与否对收入的因果性影响。很显然,按照反事实因果推断的逻辑,这些与上大学的人相像的但实际上没有上大学的个体,与那些真正上大学的人如此相似,以至于我们可以近似把他们的收入当成上大学的人的收入的反事实状态。与大学毕业生相比,这些用于匹配的个体只是在高中毕业以后的关键节点上没有上大学,这种差异可以看作影响收入差异的近似的“唯一”因素。这就是匹配法的原理。

基于这种原理,匹配法的优点就十分明显了。一方面,匹配这样的分析过程从原理到实践都相比其他方法更为简单,整个分析不需要复杂的过程或者参数设定。这是因为,在我们找到匹配对象的情况下,为了确定因果关系,我们只需要将被研究对象和他们的匹配对象在响应变量Y上的取值做一个简单的对比即可。比如,做一个T检验就能够估计因果关系了。但是,需要注意,匹配法和随机实验还是有所不同的。随机实验最终的目的是希望通过随机化的过程,让一些看得到的或者看不到的混淆变量尽量在实验组与控制组之间保持平衡。匹配法的话,研究者不可能匹配那些看不到的因素,但是至少可以把一些看得到、测量得到的混淆因素进行匹配。通过这种努力,虽然我们不是在做随机实验,但匹配的结果却在能够观测到的混淆因素上尽可能向随机实验靠近。说到这里,匹配法和随机实验相比的缺点也是很清楚了。随机实验能够平衡的不仅仅是可观测到的混淆变量,甚至连非观测到的混淆变量也可以平衡,而匹配永远只能针对可观测的混淆变量操作。两相对比,当然随机实验更优,非随机实验的匹配法次之。故而一项研究中如果研究者能做随机实验,还是尽量做随机实验。但如果数据只能是观测性的,或者做实验在现有的条件下并不现实,此时如果我们能够将匹配做得很好,后续的分析过程也会大大简化,不需要有很复杂的模型就可以解决因果推断问题,这是匹配法的第一个优势。

匹配法的第二个优点在于降低了一项研究对模型的依赖。前面的章节中提到过,传统的建模方式最大的问题在于研究者会有意无意地做模型的外推,从而在模型没有数据支撑的地方,用模型的基本形式衡量那个“空白”区域的变量关系。这样做的前提是,模型拟合得很好。比如,实际数据产生过程是线性关系,模型也体现出线性关系;数据产生过程是抛物线关系,那模型也体现出抛物线关系。但是,如果数据的实际关系和模型规制的关系出现矛盾的话,过度依赖模型的外推就有问题了。打个比方,模型就像一个帽子,而数据则代表一个人头的大小。如果不管头大还是小,就按照固定尺寸的帽子一定要套在头上,那就明显不合适了。与这种基于模型进行的统计分析相比,匹配法的实施过程不存在人为设定好的参数模型。我们不需要像线性模型那样要求某项随机误差正态分布,不需要设定方差恒定,不需要假定变量之间的线性关系等。因此,关于模型形式的参数的所有设定都被“放松”了,匹配过程做的就是一个非参数的操作,研究者只需要把一些人和另外一些人匹配起来,然后看这两组人在响应变量上的取值差异就可以了。所以,没有复杂的模型设定,这是匹配方法的另外一个优势所在。(www.xing528.com)

当然,上面谈到的这两个优点,是有一个前提条件的,即匹配真的做得很好。也就是说,研究者能够找到一些和被研究对象非常相像的人匹配。否则,匹配法的结论仍然可能存在偏误。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈