在随时间变化的因果关系分析中,具体而言,我们有三个前提假设需要满足。
1.级序可忽略性假设
所谓级序可忽略性(sequential ignorability)假设,是指针对每个时间点,如果我们控制了一系列的混淆因素以及之前的处理变量的取值之后,我们可以在那个时间点上满足可忽略性。即,在T时间点的处理变量At和Y的各种潜在取值都是独立的。这里我们有必要解释一下Y的各种潜在取值是什么意思。在传统的二分型处理变量情况下,Y的潜在取值有两个,一个是处理变量为1时的Y(1),一种时处理变量为0时的Y(0)。然而,在随时间变化的处理效应中,处理效应A是一连串的取值。假设我们有三个时间点,每个时间点上A可以取值0或者1,此时,Y的潜在取值就有23种,即Y(111)、Y(000)、Y(100)、Y(010)、Y(001)、Y(110)、Y(101)以及Y(011)。
对于A的这八种组合,如果级序可忽略性假设成立,则时间点t时的At和任何一种历时性组合彼此之间都是独立的。例如,对于第二个时间点的处理变量A2而言,在控制了两个时间点的混淆变量和第一个时间点的处理变量A1之后,A2和一系列的潜在取值都独立。综上,对于t时间点而言,我们可以把包含t这一时间点在内之前各个时间点的各种混淆因素的取值串写成Lt,在t之前,不包括t在内的处理变量的历史取值串写成At-1,Y的各种潜在取值表示为Ypotential。此时,级序可忽略性假设表示为
这个假设非常重要,因为如果这个假设不满足,实际上在每个时间点上都存在对因果关系的混淆,我们便没有办法准确估计每个时间点上的因果效果。自然,对于整个一串随时间变化的处理变量而言,也就无法估算出其因果效果了。
2.一致性假设(https://www.xing528.com)
和常规的因果推断假设一样,这里的一致性假设要求实际观测到的在特定处理变量取值串下的Y,就是其潜在状态的取值。还是以上面的居住小区性质为例。假设有三个历史时期,有八种Y的潜在取值。假设在收集来的数据中,一个人的A的取值历史为1 1 0,那么其潜在取值Y(110)就等于其观测到的Y的值。即,如果这个人在三个时间点中前两个时间点住在好的社区,而第三个时间点住在了不好的小区,其对应于Y(110)的潜在高考成绩就等于其实际观测到的高考成绩。换句话说,这个人潜在观测值有八种,但是其中一种的取值就是其实际观测值。
3.正值假设
所谓的正值假设,是指在控制了t时间点及其前面的一系列混淆因素Lt以及t之前各个时间点的处理变量取值串At-1之后,个体在第t时间点接受处理变量干预的概率在0~1之间,但不能为0,不能为1。也就是说,不能够存在这样一种情况,在某个时间点,某个人一定会住进好的小区,或者一定住进不好的小区。对于每个人,在每个时间点上,他或者她住进好的小区还是坏的小区的概率都是一个0~1之间的正值数字。
基于上面的三个假设,我们可以做进一步的统计分析。如上文所言,不同的统计方法对应于不同的研究问题。如果我们希望看一串处理变量A1 A2 A3…对于Y的影响,而不关注于特定At对Y的影响,可以采用边际结构模型(marginal structural model)。如果我们不是关注一串处理变量的效果,而是看特定At对于Y的影响,可以使用结构嵌套均值模型(structural nested mean model)。所谓的边际,是指我们关心的是Y潜在取值的边际均值,并对其建模。所谓结构,是指我们针对潜在取值的期望值进行建模,而不是针对直接观测到的Y进行建模。嵌套的意思,只是每个时间点上的L和A的取值取决于前面时点的取值,即后面嵌套于前面。最后,所谓的均值模型,指的是看Y的潜在取值的差值变化。与之相比,一些其他的模型(例如,针对发生比进行分析的模型)看的是不同时间点Y的比值变化。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
