首页 理论教育 倾向值的定义及其作用:匹配、加权和细分法

倾向值的定义及其作用:匹配、加权和细分法

时间:2023-07-08 理论教育 版权反馈
【摘要】:所谓倾向值,是指个体进入处理变量特定水平的概率。在随机实验中,一般而言,倾向值会是一个固定的值。例如,在简单随机实验中,每个个体通过掷硬币的方式来决定是否进入实验组,此时每个人的倾向值e就是0.5,因为掷硬币的话,出现特定面的概率是固定在0.5的。具体而言,倾向值有两个作用。这就涉及倾向值的第二个作用,即降维。具体来说,倾向值可以有以下几个主要用法:匹配、加权和细分。

倾向值的定义及其作用:匹配、加权和细分法

所谓倾向值,是指个体进入处理变量特定水平的概率。如果处理变量是一个二分变量(实验组和控制组),那么倾向值e就是进入实验组的概率。相应地,1-e就是个体进入控制组的概率。在后面我们会谈到广义倾向值,是指当处理变量具有多个处理水平(大于等于2)的时候,进入特定处理水平的概率。在随机实验中,一般而言,倾向值会是一个固定的值。例如,在简单随机实验中,每个个体通过掷硬币的方式来决定是否进入实验组,此时每个人的倾向值e就是0.5,因为掷硬币的话,出现特定面的概率是固定在0.5的。在处理观测性数据的时候,倾向值则通常是由一系列混淆变量X决定的。在这种情况下,研究者可以通过特定的模型来估计倾向值。一个最简单的办法是利用logistic回归来估计每个个体进入实验组的概率。除了logistic回归,还有很多机器学习的分析技术可以用来进行倾向值的估算(例如回归树、支持向量机等),但是现有研究基本上支持logistic回归的倾向值估计策略(Lee,Lessler和Stuart,2010)。具体的估计过程有以下几步。

倾向值的估计步骤:

第一步:确定处理变量D(1=进入实验组;0=进入控制组)和混淆变量X;

第二步:拟合logistic回归模型

第三步:针对每个个体,产生估计的倾向值得分(www.xing528.com)

在得到倾向值之后,下一个问题是,倾向值在因果推断过程中起到什么作用呢?具体而言,倾向值有两个作用。第一个作用是,倾向值是一个平衡值(balancing score)。所谓平衡值,是指通过控制倾向值,我们能够满足可忽略性假设。也就是说,在控制了倾向值之后,处理变量D和潜在响应变量取值Y(1),Y(0)之间达成独立,如下所示:

实际上,在我们分析观测性研究的时候,一个非常基本的假设是,虽然D与Y(1),Y(0)并不独立,但是在控制了一系列混淆变量X之后,我们就能够达成可忽略性假设,即

这一条件也被称为“条件”可忽略性,即在控制了X之后,可以满足可忽略性假设。对比这一公式和前面一个公式可以发现,e(X)是所有X的一个代理变量。这就涉及倾向值的第二个作用,即降维。在一般的分析数据中,我们可以将一个控制变量看作一个维度。因此,如果有很多潜在的混淆变量的话,混淆因素的维度会很多。如果按照前面介绍的传统的方法,一个一个变量去考察,会面临一个称为维度诅咒(curse of dimensionality)的问题。维度诅咒的含义很容易理解。在给定数据的情况下,随着变量维度的增加,特定变量取值组合下的数据点就会越来越少。例如,如果我们有五个二分型混淆变量,那么它们就有25=32种组合。此时如果我们有100个观测值,那么平均而言每种变量组合下只有100/32≈3个人。当然,现实情况下,混淆变量数量很多,变量的取值也不仅仅是二分型的。此时,随着混淆变量数量的提升,特定混淆变量取值组合下有可能就没有观测点了,这就是所谓的维度诅咒。但是,如果我们能够通过类似于logistic回归的方法将各种混淆变量X都简化成为一个倾向值的话,我们就是在处理一维的资料,自然不会有维度诅咒的问题了。

总地来说,正如上面所说,倾向值的计算过程是很容易的。任何数据都有大量的混淆变量X存在,我们作为研究者也知道每个个体是不是真的进入实验组,从而可以建构一个二分变量。那么利用一些模型来算出每个个体的倾向值就是一个常规模型预测问题,本身不复杂。之后,研究者需要面对的一个问题是,在我们算出倾向值以后,应该怎么用它呢?具体来说,倾向值可以有以下几个主要用法:匹配、加权和细分。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈