首页 理论教育 回归分析和线性关系

回归分析和线性关系

时间:2023-05-25 理论教育 版权反馈
【摘要】:在实际操作中,研究人员在很长一段时间里对英国政府系统的数千名公务员进行了详细的纵向数据收集,这些数据经过分析能提供有意义的相关关系信息,如“缺乏控制力”的工作与冠心病发病率之间的关系等。具体来说,回归分析能够在控制其他因素的前提下,对某个具体变量与某个特定结果之间的关系进行量化。回归分析与民意测验相类似。

回归分析和线性关系

Naked Statistics

你认为什么样的工作压力更容易使职场人士猝死,是“缺乏控制力和话语权”的工作,还是“权力大,责任也大”的工作?

工作压力过大会致人死亡吗?答案是肯定的,有大量证据表明工作压力会导致早逝,尤其使心脏病猝死的概率陡增。但这种致命的压力或许跟你想象的有所不同。公司高管们几乎每天都要做出重要决策,这些决策关系到他们公司的前途命运,但他们所承受的风险要远远小于他们的秘书,后者必须兢兢业业地接听电话,完成上级布置的各种任务。但这怎么可能呢?其实最危险的一类工作压力来自于对自己的工作任务“缺乏控制力”。针对数千名英国公务员的多项调查(“白厅”研究)发现,那些对自己的工作没有支配能力的雇员—也就是基本上对干什么、怎么干没有话语权的人—相比起那些拥有更多决策权的雇员来说,前者的死亡率更高。由此表明,并不是那些“权力越大,责任也越大”的压力置你于死地,而是那种等着上司给你布置任务,但自己又没有权力决定怎么完成、何时完成这些任务的压力把人压垮了。

本章并不是要讲工作压力、心脏病或英国的公务员等内容。之所以要提到“白厅”研究,是为了引出本章真正要讨论的问题:研究人员是如何得出这样的结论的?很显然,类似于上面的问题都无法用随机试验的方式解决,因为我们不可能把人强行分配到各个工作岗位并强迫他们在那里工作好几年,然后再看看谁因公殉职(就算不考虑道德因素,这样做也会把英国政府的日常公务弄得一团糟)。在实际操作中,研究人员在很长一段时间里对英国政府系统的数千名公务员进行了详细的纵向数据收集,这些数据经过分析能提供有意义的相关关系信息,如“缺乏控制力”的工作与冠心病发病率之间的关系等。

一个简单的相关关系,并不足以让人得出某类工作对健康有害的结论。在发现了英国政府系统中低级别的雇员更容易患上心脏病之后,我们还必须考虑到其他可能的因素。例如,我们可以想见这些低级别雇员的受教育水平要比高层官员们低;这些人更有可能染上烟瘾(或许是因为他们在工作中郁郁不得志);低级别雇员小时候的体质较弱,从而影响了长大后的工作前景;又或者较低的收入使得他们无法享受到好的医疗资源等。重点在于,任何一项只是简单地比较某个大型人群中个体(或不同人群)健康状况的研究都不会告诉我们太多有用的结论,在这样庞杂的数据中有太多的干扰因素会模糊我们对那些真正值得注意的关系的看法。心脏病真的是“低级别工作”导致的吗?又或者只是这类雇员所共有的一些因素共同导致的?如果我们认同了后者,那就等于完全无视一个真正的公共健康威胁。

回归分析就是帮助我们处理这类问题的统计学工具。具体来说,回归分析能够在控制其他因素的前提下,对某个具体变量与某个特定结果之间的关系进行量化。也就是说,我们能够在保持其他变量效果不变的情况下,将某个变量的效果分离出来,例如从事某项特定的工作。“白厅”研究用回归分析来衡量低级别工作对某个人群的健康状况的伤害,这类人群在工作生活中的其他方面都是相似的,例如吸烟习惯(低级别雇员抽烟总数的确要比他们的上级多,但这对整个政府系统员工的心脏病发病率差异的影响相对来说并不是很大)。

在报纸上读到的绝大多数研究成果,都是以回归分析作为基础的。研究人员发现,在幼儿园长大的孩子升入小学后比没上过幼儿园的孩子更容易出现行为问题,这项研究并没有将几千名儿童随机分配给幼儿园或家人抚养,也不是简单地将在不同环境中长大的小学生进行比较,而忽略了其他可能会对他们的行为造成影响的根本性因素。不同的家庭对孩子的抚养决策是不同的,这是因为每个家庭和每个孩子都是不同的。一些家庭双亲俱在,一些家庭则没有那么幸运;一些家庭的双亲都有工作,一些家庭则并非如此;一些家庭更加富裕,家长的受教育程度也更高,一些家庭却没有这么好的条件。所有这些因素都会影响到家长的育儿决策,而这些决策会进一步影响到孩子在小学期间的表现。如果处理得当,回归分析能够排除其他因素的影响(如家庭收入、家庭成员结构、家长受教育水平等),辅助我们认清幼儿园对孩子升入小学后的行为影响。

在上述这句话中,有两个关键词。第一个关键词是“处理得当”,如果具备充足的数据和一台笔记本电脑,一个关于6岁小孩的回归分析就能在一个基础的统计程序上生成。电脑的出现让回归分析变得毫不费力,因此问题的核心不是回归分析的技术性部分,而在于确定分析过程中要用到哪些变量以及如何才能将这些变量的作用发挥到最佳。回归分析就像是一件外观华丽、功能强大的工具,使用起来非常容易,但若要使用得好,就得下一番功夫了,而且如果使用不当,还会带来意想不到的危害。

第二个关键词是“辅助”,刚刚那个研究并没有给我们提供一个关于幼儿园与孩子在小学的行为表现之间关系的“正确”回答,而是针对某个特定时间段内的某群特定儿童量化了这一关系。我们能够从中得出可以推而广之的结论吗?当然,但是和其他类别的推断一样,我们也是有限制和条件的。首先,抽取的样本必须能够代表我们所关心的群体,一项包含2 000名瑞典儿童的调查并不能指导我们如何在墨西哥的乡村地区开展最好的学前教育。其次,不同样本之间应该存在差异。在抽样方法完善且相似的前提下,如果我们抽取不同的样本进行研究,每一份样本的结果彼此之间应该存在细微的差异。

回归分析与民意测验相类似。好消息是,在样本数量大、具有代表性且方法论成立的情况下,样本数据所呈现的相关性基本上与全体人口的现实情况差别不大。假如样本容量均为10 000人,那么每周锻炼3次或以上样本组的人的心血管疾病发病率要大大低于从来不锻炼的样本组的人(但这两组人在其他重要方面都相似),对于全体人口来说,锻炼和心血管疾病之间就很有可能存在类似的关系。这也是为什么我们要进行这些研究(记住,研究的重点并不是在研究结束时告诉病患年轻时应该多做运动)。

坏消息是,我们并不能确切地证明运动可以预防心脏病,我们只是推翻了“运动与心脏病无关”的零假设。具体来说,该项研究的作者在报告中写道,如果运动与心脏疾病并无相关关系,那么经常运动的人和不运动的人得心脏病的比例出现如此巨大差异的概率将不到5%,如果将统计学的基本概率门槛设定为5%,那么这一个发现就具有了统计学意义。

等一下,让我们先好好思考一下上述这个例子。假设这项研究对比的是一群定期打壁球的人和一群从不运动的人—两类人的体重相当。打壁球的确对增强心脏功能有好处,但是,我们也不能忽略壁球这种运动并不是一般人能长期消费得起的,那些有打壁球习惯的人通常是社会的上流人士,他们加入的一些俱乐部常常有壁球场地供他们使用。同时,富有的人所能接触到的医疗资源自然更为丰富,这也有利于他们保持心脏健康。如果研究人员想草草了事,当然可以将这些人的心脏健康归功于打壁球,但事实上真正的健康受益于足够支撑壁球运动习惯的财富(打马球也是相同的道理,有人说参与马球运动的人更健康,其实这也是财富和优质医疗的功劳,不用想都知道打马球的过程中真正锻炼了身体的主要是马)。

还有可能是因果关系倒置,会不会是拥有了健康的身体才更愿意运动呢?当然有可能。那些体弱多病的人,尤其是心脏有先天性缺陷的人不宜从事剧烈运动,他们不大可能定期去打壁球。但如果研究分析过于敷衍和简单化,就会说运动有益于身体健康,而实际上却是那些天生身体不好的人不经常从事运动。照这个观点,打壁球并没有让任何人变得更健康,而只不过是将健康的人与体质差的人区分开罢了。

回归陷阱的形式多种多样,在下一章中我将会为大家介绍一些最“恶名昭著”的错误。现在,让我们把焦点放在正确的做法上。回归分析的强大能力表现在:将我们所关心的统计关联隔离出来,如工作中的支配力和心脏病,同时还不忘考虑其他可能会对这一相关关系产生影响的因素。

具体是如何做到的呢?如果我们得知英国政府中低级别雇员的身体要比他们上司的体质更弱,那我们怎么确定在心血管健康状况不佳的致病原因里,有多少比例源于他们低级别的工作,多少比例因为吸烟?这两个因素看上去似乎是彼此缠绕、密不可分的。

通过回归分析就能将它们解开。为了让大家都能理解其中的奥妙,我必须从基础说起,无论是哪种形式的回归分析—从最简单的统计学关联到诺贝尔奖获得者搭建的复杂模型,都离不开的基本概念。最核心的一点是,回归分析寻找的是两个变量之间的最佳拟合线性关系。举个简单的例子,身高和体重的关系。虽然不是绝对的,但身高较高的人一般体重应该更重。我们将一组大学毕业生的身高和体重标记在坐标轴上,不知道你会不会回忆起我们在前文中讲过的内容。

图12–1 身高与体重散点分布图

如果让你描述一下上面的图,你或许会说“体重看上去似乎随着身高的增加而增大”之类的话,说得很对,但离满分还有点距离。回归分析能够让我们更进一步,用更加精确的话语来描述这两个变量之间的线性关系。

大致来看,符合身高和体重数据趋势的线有很多条,但我们如何知道哪一条才是“最佳”的?我们又如何定义“最佳”这两个字?回归分析的一个常用方法为最小二乘法(OLS),为什么OLS能够得出最佳拟合线性关系,我们留给更高阶的课本去解释,这里的关键点在于,OLS直线可以让所有数据的残差平方和为最小—别慌,这句话其实并没有那么难以理解。在我们的身高与体重数据组中,每一个数据都有一个残差,即距离回归线的垂直高度差,而对于那些直接落在回归线上的数据点,它们的残差则为零。在下图中,A同学的残差(用e表示)被标了出来。如果残差的和越大,则回归线就越不准确,这一点很好理解。OLS公式中唯一不好理解的地方在于,在相加之前,我们需要将每个数据的残差平方(这就增加了那些离回归线特别远的数据,即极端异常值在结果中的比重)。

下图就展示了一条可以让所有数据的残差平方和为最小的OLS直线。

图12–2 身高和体重的最佳拟合回归线

如果前文中提及的技术性描述让你感到头疼的话,请记住一点:OLS是两个变量线性关系的最佳描述。当然,结果不仅仅是一条直线,如果你还记得高中几何课程的话,一定能回想起一个直线方程,也就是我们所说的回归方程:y = a + bx,其中y表示体重(磅),a为截距(当x = 0时y的值),x为身高(英寸)。而OLS所决定的直线的“坡度”,就描述了这个例子中身高和体重之间的“最佳”线性关系。

当然,回归线不可能把数据组中的每一个点都包含进去,但若要在身高和体重之间寻找到一个有意义的关联,回归线是我们所能做到的最佳描述。同时,每一个数据都可以用一个方程式来表示:体重 = a + b(身高) + e,其中e作为残差,代表的是相同身高条件下不同体重的人的差异。最后,通过这条回归线我们还可以得出,该组数据中如果根据身高猜测体重,最准的办法是求出a + b(身高)的值。虽然绝大部分的数据并非恰好落在回归线上,它们的残差之和依然有可能为零,这是因为有些人的体重超过回归线的预测体重,而有些人的体重却比回归线的预测体重轻。

是不是快要对本章内容失去耐心了?那我们就一起来看一些取自“变化的一生”项目研究的真实数据吧。首先,还是向大家介绍几个基本术语。被解释的变量—在这个例子中变量为体重—被称作因变量(这是因为它依赖于其他因素),而我们用来解释因变量的变量被称作解释变量,有些时候,解释变量又被称作自变量控制变量。我们先用身高来解释“变化的一生”项目的研究对象的体重,随后再加入其他潜在的解释因素。在“变化的一生”研究中,一共有3 537名成年美国人参与,即我们的数据量n(有些研究论文会记作n = 3 537)。接下来,我们对这些研究对象的数据进行简单的回归分析,视体重为因变量,视身高为唯一的解释变量,便得到了如下结果:

体重 =–135 + 4.5×身高

a =–135。这是回归线在Y轴上的截距,本身并没有什么特别的含义。(如果仅从表面上理解,它代表的是一个人如果身高为零英寸,则体重为–135磅,但这显然是不可能发生的事。)我们也会将其称为恒量,因为这是计算所有体重的起点。

b = 4.5。我们称为回归系数(或身高系数)的b经计算为4.5,此为对“变化的一生”项目的研究对象的身高和体重关系的最佳描述。我们对回归系数有一个简单、实用的解读:自变量(身高)每增加一个单位,因变量(体重)就增加4.5个单位。放在我们的数据样本中,就意味着身高每增加1英寸,体重就会相应增加4.5磅。在没有其他额外相关信息的情况下,我们对“变化的一生”里一个身高为70英寸的参与者体重的最佳预测为–135 + 4.5×70 = 180磅。

看到了吧,这就是回报,因为我们已经量化了“变化的一生”项目的研究对象身高与体重的最佳线性关系。通过同样的原理,我们还可以解释更加复杂的关系和解决更加具有社会意义的问题。对于任意一个回归系数,我们只需要关心3件事情就行了:正负、大小和含义。

正负。回归系数的正负揭示了自变量与因变量之间相关关系的方向。在上述简单的例子中,身高系数为正,也就是说,身高略高的人倾向于体重略重。而有一些关联正好相反,比如说运动量和体重。假如“变化的一生”研究中还包含了如“每个月跑步的英里数”,那我可以肯定这个“英里系数”就是负的,通常跑得越多,体重就会越轻。

大小。自变量到底能对因变量产生多大的影响?这种影响会达到何种程度?在上述例子中,每英寸身高都关系着4.5磅的体重,而4.5磅对于一个人的体重来说是一个不小的重量。在解释一些人为什么比另一些人的体重更重时,身高自然是一个重要的因素。但在其他研究中,我们有时候会发现一个奇特的现象:某个解释变量在统计学意义上对结果有着非常巨大的影响,也就是说出现这样的结果不可能是巧合,但这个解释变量的社会学意义却渺小到几乎可以被忽略。举个例子,影响收入的决定性因素。为什么一些人比另外一些人挣得多?解释变量最有可能是教育、经验、从业时间等。在一个大型数据组中,研究人员还发现在其他因素相似的前提下,牙齿白的人平均每年要比其他人多挣86美元。这些研究对象有着相同的条件:教育、工作经验等(我在以下的内容中会为大家解释研究人员是如何神奇地做到这一点的),“洁白牙齿系数”为正,而且具有统计学意义。该统计分析显示,一口洁白的牙齿与每年多挣86美元之间存在相关关系,而且基本上排除了这一结果是巧合的可能性。也就是说(1)我们刚刚用充分的自信推翻了“牙齿洁白和高收入没有关系”的零假设;(2)如果对其他数据样本进行分析,我们也会在洁白的牙齿和更高的收入之间找到类似的相关关系。

但是,那又怎么样?我们的确发现了一个具有统计学意义的现象,但从社会学角度来看它其实无关紧要。首先,86美元并不是一笔足以改变人生的金钱,在公共政策制定者的眼里,86美元或许还不够每年牙齿美容的费用,因此我们甚至无法向年轻雇员推荐这类投资。此外,虽然下一章的内容会着重讲解回归分析中的陷阱,但我还是忍不住想要就方法论这方面的内容先说几句。例如,拥有完美的牙齿很有可能与本人的性格特点有关,正是因为这种性格特点,才带来了更高的收入,他们之所以挣得比别人多,是因为他们具备爱护牙齿这种性格,而非牙齿本身。这个例子告诉我们,要时刻关注解释变量与我们所关心的结果之间相关关系的大小。

含义。统计结果到底是一个基于糟糕数据样本的错误,还是能够反映整个群体普遍真相的有意义的相关关系?在之前的多个章节里,我们其实一直在反复追问这个问题。放到身高和体重的例子中,我们是否能够在其他代表性样本中寻找到这两个变量之间类似的正相关关系?回答这个问题,我们可以用之前学过的推断方法。我们的回归系数所描述的是某组具体的样本数据中身高和体重的关系,如果我们在同一个人群中再随机抽取另一组大型样本,该样本的身高和体重数据肯定会有所不同,因此,就会得出另一个不同的回归系数。“白厅”研究(英国政府官员系统)数据里的身高和体重的关系很有可能与“变化的一生”项目的研究对象的身高和体重的关系有所区别。但是,由中心极限定理可知,一个正确抽取的大型样本的平均值并不会特别偏离其所在群体的平均值,同样的,我们也可以说,不同变量之间的关系(如身高和体重)不会因为样本的不同而发生特别大的变化,当然前提是这些样本都来自同一个群体,而且都是正确抽取的大型样本。

设想一下,我们发现“变化的一生”的研究对象的身高和体重存在正相关关系—增加的每英寸身高都对应着增加4.5磅体重,但在另外一组包含3 000名成年美国人的样本中却没有找到身高和体重之间的任何相关关系,这可能吗?几乎不可能(但也不能完全排除偶然性)。

这为我们验证回归分析的结果是否具有统计学意义,提供了第一条线索。与民意测验或其他形式的推理类似,我们也可以计算出回归系数的标准误差。标准误差衡量的是,对取自相同群体的多个样本进行回归分析所得出的回归系数的离散程度。假如我们抽取3 000名美国成年人进行身高和体重数据的收集,那么在回归分析中我们可能会发现,他们平均身高每增高1英寸,相应的体重增加值为4.3磅;如果重复抽样和计算,那么每英寸身高所对应的体重增加值有可能变成5.2磅。正态分布又一次成为我们的朋友。对于像“变化的一生”这样的大型数据样本来说,我们可以假设不同的回归系数围绕着全体美国成年人的身高和体重的真实情况呈正态分布。在此基础上计算得出标准误差,我们就能够对不同样本的回归系数的分布有一个大体认识。接下来,我将不再占用宝贵的篇幅来介绍标准误差的计算方程式了,原因有二:一是因为大量的数学运算会干扰本章的研究方向,二是所有最基本的统计软件都可以帮你完成这一计算。

但是,我必须警告你的是,对于小型样本数据(例如20位成年人而非“变化的一生”项目的3 000人)来说,正态分布将不再是我们的“好朋友”。具体来说,假如我们对不同的小型样本进行回归分析,就不能指望这些回归系数会围绕着全体美国成年人身高和体重的真实情况呈正态分布,此时的分布情况我们称为“t分布”(简单概括之,t分布比起正态分布来说更加分散,因此左右两条“尾巴”的幅度更大)。其他的情况也是一样的,任何一款基础统计软件都能轻易地解决这个稍微复杂的问题,因此有关t分布的种种细节请参考本章结尾的补充知识点。

还是回到大型数据(以及正态分布)上来,我们必须认识到标准误差的重要性。从民意测验和其他统计推断中我们可以想见,有超过50%的回归系数会落在真实人口参数一个标准误差的范围内,约95%的回归系数会落在两个标准误差的范围内,以此类推。在理解了这一点以后,我们基本上就算弄清楚了,因为现在我们就可以进行假设检验了(说真的,别告诉我你已经忘了有这么一步了!)一旦得出了回归系数和标准误差,我们便能对“解释变量和因变量之间没有相关关系(即回归系数为0)”的零假设进行检验了。

在上述有关身高和体重的简单例子中,假如对于全体人口来说身高和体重并不存在任何相关关系,那么我们在“变化的一生”样本中得出每英寸身高对应4.5磅体重的概率有多高?我在电脑上用一款最基础的统计软件进行了回归运算,得出身高系数的标准误差为0.13,也就是说,如果我们重复此分析,比如说有100个不同的样本,那么预计将会有约95个回归系数落在人口真实参数两个标准误差的范围内。

由此,我们可以用两种不同但彼此相关的方式呈现这一结果。第一种方式是,我们可以建立一个95%的置信区间(4.5±0.26),也就是说,在95%的情况下回归系数会落在此区间里,也就是4.24~4.76之间,用基本的统计软件就能算出这一区间。第二种方式是,我们可以说在身高和体重的相关性95%的置信区间里不包括零。由此,我们就能有95%的把握推翻“身高与体重之间不存在相关关系”的零假设了。这个例子的显著性水平为0.05,也就是说在推翻零假设这件事情上只有5%的概率是错的。

事实上,我们的统计结果还要更极端。标准误差(0.13)相比起回归系数(4.5)来说,是一个极小的数字,一个经验法则就是,当回归系数至少是标准误差的两倍或以上的时候,该系数极有可能具有统计学意义。使用统计软件还可以计算出这个例子中的假定值约为零,这就意味着如果整体人口的身高和体重真的不存在任何相关性的话,那么得到如此极端(或更加极端)结果的概率基本上为零。要记住,我们并没有证明身高略高的人的体重就一定更重,我们只不过表明了,由“变化的一生”样本得出的身高与体重相关性假如不为真的话,那会是一件极为反常的事。

通过基础的回归分析,我们还可以得出一个值得注意的统计值:用以衡量所有能够用回归方程表示的数据总和R2。在“变化的一生”样本中,仅体重一项就有大量不同的数值,有一些人重于所有人的体重平均值,有一些人的体重还不足平均值,通过R2,我们便可以知道这些围绕在平均值周围的体重与身高两项因素之间的相关关系到底有多“亲密”,即回归系数。在这个例子中,答案是0.25或25%。也就是说,我们的样本中有75%的体重数据无法在回归方程上表现出来。对于“变化的一生”项目的研究对象来说,影响他们体重的因素显然不仅身高这一项,别着急,有趣的内容马上就要讲到了。

我必须承认的是,本章一开始讲到回归分析的时候,我是把它当成社会科学研究过程中神奇的“万金油”来介绍的。到目前为止,我做的所有事情就是使用统计软件和一组数据来说明身高高的人比身高矮的人重。任何人只要去购物中心走一圈,恐怕都能得出相同的结论。现在,既然大家都对基本知识了解得差不多了,那么,就到了释放回归分析真正的“超能力”的时候了。

诚如我所承诺的,回归分析能够让我们解开多种影响因素和某个大家所关心的结果(如考试分数、收入或心脏病)之间的错综复杂的关系。当我们将多个变量都纳入回归方程式时,接下来的分析可以让我们计算出因变量与每个解释变量之间的线性关系,与此同时,可视其他变量为常数,相当于把其他变量放入“控制组”里。还是上述有关体重的例子。我们已经找到了身高与体重之间的关系,同时我们还知道其他一些能够解释体重的因素(年龄、性别、饮食、运动等),回归分析(当有超过一个解释变量的时候,我们通常称其为多元回归分析或多变量复回归分析)会为回归方程中的每一个解释变量配备一个系数。具体而言,那些性别和身高都相同的人,他们的年龄和体重是怎样一种关系?当我们的解释变量数目超过一个时,就无法在一个二维的坐标中将数据表示出来。想象一下,如果将“变化的一生”项目的每一位研究对象的体重、性别、身高和年龄都在一个多维的图中表示出来,将会是多么壮观的一幅图景。但要记住的是,我们的基本原理并没有改变,无论是之前简单的身高与体重变量,还是现在的多个变量,只要将它们输入电脑上的统计软件,就会自动生成让残差平方和最小的回归系数与回归方程。

我们暂时还是以“变化的一生”为例,后面我将通过另外一个例子直观地告诉大家多变量回归分析是如何在我们的生活中创造奇迹的。首先,我们为“变化的一生”项目的研究对象的体重再增加一个解释变量:年龄。在电脑中输入相关的身高和年龄数据后,我们得到了如下的方程式:(www.xing528.com)

体重 =–145 + 4.6×身高+ 0.1×年龄

年龄的回归系数是0.1,也就是说,在其他变量不变的条件下,年龄每增加一岁,体重相应地增加0.1磅。对于任意一组相同身高的人来说,年龄大的人的平均体重要高于年龄小的人,年长10岁表现在体重上就是体重重1磅。从方程式上看,虽然年龄对于体重来说并不是一个很显著的影响因素,但确实和我们在生活中看到的一致,该系数的显著性水平为0.05。

你可能还注意到了身高的回归系数比之前增加了一点儿。当把年龄变量考虑进来后,我们对于身高对体重的影响有了一个更加精确的认识。样本里相同年龄的人中,也就是“当年龄为常量时”,身高每增加1英寸,体重增加4.6磅。

我们再加入一个变量:性别。这次就有一点不同了,因为性别只存在两种可能性:男性或女性。我们总不能把“男”和“女”放到回归方程式里吧?这时候我们需要用到二进制变量(又称虚拟变量)。在输入数据的时候,如果参与者是女性,我们就用1来表示;如果参与者是男性,我们就用0来表示。性别系数可以理解为,在其他因素不变的情况下对女性体重的影响。该系数为–4.8,并没有出乎大多数人的意料,具体来说,就是对于相同身高和年龄的人来说,女性要比男性轻4.8磅。现在,我们可以开始领略多元回归分析的一些神奇之处了。我们知道女性一般要比男性矮一点儿,但好在我们已经将身高“控制”起来,因此最后呈现的系数也应该会表现出女性比男性矮的特点。最新的回归方程式如下:

体重 =–118 + 4.3 ×身高 + 0.12×年龄–4.8×性别(女性为1,男性为0)

对于一位身高为65英寸的53岁女性来说,她的体重最有可能约为–118× 4.3 × 65 + 0.12 × 53–4.8 = 163磅。对于一位身高75英寸的35岁男性来说,他的体重最有可能约为–118 + 4.3× 75 + 0.12 × 35 = 209磅,我们之所以跳过回归方程式的最后一项(– 4.8),是因为这个人不是女性。

现在,我们可以开始思考那些更有趣但也更难以预测的因素了,比如教育。教育如何对体重产生影响?如果是我,我会假设受教育程度高的个人对健康更加关注,因此在其他情况都相同的条件下,这类人的体重会轻一些。我们还没仔细考虑过体育锻炼对体重的影响。我会认为,在其他因素不变的前提下,运动量越大,体重就会越轻。

贫困这一因素又有何影响呢?在美国,收入低也会表现在体重方面吗?“变化的一生”项目的研究人员会向每一位研究对象询问他们是否正在接受美国政府的粮食补助,这是一个衡量贫困程度的好方法。此外,我对种族也很感兴趣。众所周知,在美国有色人种有着不一样的生活体验,与种族相关的文化和居住因素会对体重造成影响,许多城市至今还保持着高度的种族隔离,非洲裔美国人比起其他美国人,更有可能居住在“食品沙漠”中,也就是销售水果、蔬菜和其他新鲜食物的食品杂货店匮乏的区域。

我们可以通过回归分析将上述解释因素所造成的影响单独分解出来进行观察。例如,我们可以先保持其他社会经济因素—比如教育背景和贫困水平相同,单独分析种族和体重的相关关系,对于接受政府粮食补助的高中学历人群而言,他们的体重和肤色之间存在着怎样的统计学关系?

讲解到这里,我们的回归方程式已经变得非常繁杂了,也就不在这里为大家展示了。如果是学术论文,一般来说会在这个时候插入一个庞大的表格来总结各种回归方程的结果,在本章的补充知识点中你们可以找到一个完整的回归分析表格。与此同时,我要为大家梳理一下当加入教育、运动量、贫困水平(是否接受政府粮食补助),以及种族因素后所发生的变化。

我们原来所有的变量(身高、年龄和性别)都还是有意义的,但随着解释变量的不断加入,原来的回归系数发生了微小的变化。我们所有的新变量都以0.05作为显著性水平,此时R2从0.25上升到了0.29(要记住,当R2为0时,表示我们的回归方程式预测样本中个体体重的能力并没有比“平均值”好多少;当R2为1时,表示我们的回归方程式能够完美地预测样本中的每个人的体重),但还是有很多人的体重无法落在回归线上。

正如我所说的,教育与体重呈现负相关关系。在“变化的一生”项目的所有研究对象中,受教育时间每增加一年,体重就相应减少1.3磅。

运动与体重也呈现负相关关系,这一点并不令人感到意外。“变化的一生”项目组专门增设了运动指数来衡量每位研究对象的运动量水平。在保持其他因素不变的条件下,运动量最靠后的1/5的人要比其他人平均重4.5磅,比运动量最靠前的1/5的人重将近9磅。

接受政府食物补助(在本次回归分析中代表贫困)的个人要比其他人重。在其他因素保持不变的条件下,接受补助的人要比其他研究对象平均重5.6磅。

种族变量是其中最有趣的变量。就算将上述所有因素都“控制”起来,种族因素依然对体重有着举足轻重的影响。“变化的一生”参与者中非西班牙裔成年黑人要比其他人平均重10磅,无论是从绝对意义上还是与回归方程式中的其他解释因素对体重产生的影响相比较,10磅都是一个非常大的数字。而且这还不是一个数据错误,因为该虚拟变量的假定值(怕大家过了这么久忘了,再次提醒一下,假定值就是在零假设成立的前提下,出现所观察样本结果以及更极端情况的概率)为零,95%的置信区间是7.7~16.1磅。

到底出现了什么情况?一个诚实的回答是:其实我也不太清楚。让我来重申一下之前深藏的一个观点:我在这里只是用数据来说明回归分析的工作原理,仅此而已。刚刚所作的那些分析在真正的学者和研究人员眼里根本就是小儿科,就好像NBA球员在看街头小孩打篮球。如果这是一个严肃的研究项目,那么将会有长达数周甚至几个月的跟踪分析,以便观察结果的稳定性。我唯一能说的就是,我在这里向大家展示了为什么在面对一个复杂的大型数据样本时多元回归分析是寻找有意义结论的最佳工具。在一开始的时候,我们只能进行一个“老掉牙”的练习:量化身高和体重之间的相关关系,如今我们已经在讨论真正具有社会意义的话题了。

既然说到这里了,我们就来看一个真实的、具有深刻社会意义的回归分析研究案例:职场的性别歧视。谈到歧视,一个最大的感受就是隐晦和不易察觉。没有一个雇主会公开说你的工资比别人少是出于种族或性别的原因,又或者没有录用你是基于某些歧视性理由(这样容易导致这些求职失败者只能找其他工资待遇较低的工作)。所以我们只好另辟蹊径,看看不同种族和性别的人的收入差距有多大:白人挣得比黑人多,男人挣得比女人多……方法论带给我们的挑战是,这些收入差距也有可能是由于个人选择的不同而引起的,与职场歧视并无关系,例如更多女性倾向于选择半日制工作。那么,收入差距中有多少是因为工作量的不同,又有多少是因为职场歧视呢?我想这是所有人都愿意关心的问题。

回归分析可以帮助我们回答这个问题。但是,我们这次采用的方法就没那么直截了当了,会比之前解释体重的影响因素时略显复杂。我们会考虑其他一些影响收入的传统因素,如教育、工作经验、行业等,在控制这些因素相同的条件下,假如还存在显著的收入差距,那么就有可能是歧视因素在作祟。无法解释的收入差距的成分越多,职场歧视的嫌疑也就越大。举个例子,3位经济学家对毕业于芝加哥大学布斯商学院约2 500名工商管理硕士(MBA)的收入轨迹进行了跟踪研究,毕业时,男女毕业生的起薪大体相等:男性的收入为13万美元,女性的收入为11.5万美元。但是10年以后,他们的收入出现了巨大差异:女性的平均收入(24.3万美元)比男性收入(44.2万美元)低了45%。在另一个大型样本中,1990~2006年间毕业并进入职场的18万名MBA里,女性的收入要比男性低29%。离开学校以后,我们的女同学都怎么了?

根据研究人员(布斯商学院的玛丽安·贝特兰德以及哈佛大学的克劳迪安·戈尔丁和劳伦斯·卡茨)的调查,其实绝大部分收入差距与歧视因素的关系并不大。当有越来越多的解释变量加入分析中去,性别差异对收入的影响就变得越来越微不足道。例如,在校期间男性选择金融相关课程的人数比女性多,成绩平均分也高于女性,当将这些数据作为控制变量加入回归方程式之后,男女收入差距中无法解释的成分就下降到了19%。再将毕业后的工作经历、不在公司的时间作为变量放入回归方程式去,男女收入差距中无法解释的成分又进一步降到了9%。继续加入其他与工作特点有关的解释变量,如雇主类型和加班时长,男女收入差距中无法解释的成分已经不足4%了。

对于入行10年的雇员来说,他们之间存在的收入差距有99%都可以用非歧视性因素来解释,只有1%的概率与歧视有关。研究人员总结道:“我们发现有3个最主要的因素影响了男性和女性之间不断扩大的收入差距:MBA学习期间不同的课程选择、事业中断的原因和时间长度的差别、每周工作长度的不同。这3个决定因素基本上可以解释男性和女性在完成MBA学业多年之后的收入差距。”

我希望通过我的介绍,大家能够认可多元回归分析的价值所在,尤其是在控制其他变量的条件下单独考虑某个解释变量给结果带来的影响。但是,我还没给大家举例说明这一神奇的统计学“万金油”到底是如何发挥作用的。在其他因素相同的情况下,当我们用回归分析法来考察教育和体重之间的关系时,假如“变化的一生”项目的研究对象在其他方面都不完全一样,那统计软件是如何控制身高、性别、年龄、收入等解释因素呢?

下面,我们就先分离出某个单一变量(比如教育)并观察其对体重的影响,为了让大家的头脑能够反应过来,我们先来设想如下情形。假设“变化的一生”项目的所有研究对象都被召集在同一个地方—马萨诸塞州的弗雷明汉,首先将他们按性别进行区分,然后再以身高为标准将男性和女性由高到矮作进一步划分,并安排到不同的房间里。现在,我们有一个房间里面全都是身高为6英尺的男性,隔壁房间是身高为6英尺1英寸的男性,以此类推,女性的情况也是如此。假如我们的研究对象数量足够多,那么还可以将每个房间里的人按收入状况再进行分类。最后,研究对象全都被安排进了面积不同的房间,每个房间里的人除了教育和体重以外其他方面全都相同,此时教育和体重是我们所关心的两个变量。有一个房间里全都是年龄为45岁、身高为5英尺5英寸、年收入在3万~4万美元的男性,而隔壁房间里可能全是年龄为45岁、身高为5英尺5英寸、年收入在3万~4万美元之间的女性,诸如此类。

每个房间里个人的体重还是有所差别的,相同性别、身高和收入的人在体重上不一定都相同—但按理来讲,每个房间里的体重差异应该要小于整体样本的体重差异。那我们现在的目标就是,确定每个房间里剩余的体重差异里有多少成分可以用教育因素来解释,换句话说,教育和体重之间的最佳线性关系是什么?

现在就剩下最后一个挑战了,那就是如何解决这些房间内出现的不同的回归系数的问题。整个过程的重点就是,在保持其他因素不变的情况下,计算出一个单一的系数来对整个样本的教育和体重关系进行一个最佳描述。我们想要看到的是,用这个唯一的系数使所有房间内不同体重值的残差平方和为最小。那怎样的一个系数才能达到如此效果呢?答案就是回归系数,因为在性别、身高和收入相同的条件下,回归系数能够最好地描述教育和体重之间的线性关系。

最后说一句题外话,现在你见识到大型数据组的厉害了吧。它们能够让研究人员在控制了许多因素之后,还能让每个“房间”里都有数据可以被记录和观察。当然,我们完全不需要费力地让几千人奔波于各个房间,只要有一台电脑,所有这一切在一秒时间内就能完成了。

让我们回到本章一开始提到的那个例子,再来看看工作压力和心脏病之间的关系。多年以来,“白厅”研究项目一直在观察英国的公务员群体,试图发现岗位层级和心脏病死亡率之间的关联。一项早期开展的研究对17 530名公务员进行了长达7年半时间的连续观察,发现“低级别的男性雇员相比起高级别的男性雇员来说,身高较矮、体重较重、血压较高、血糖较高、吸烟较多、下班后健身活动较少。考虑到这些因素以及高血脂对健康的危害,研究人员用回归分析的方法对其进行了控制,但即使如此,工作控制力与死亡率(表现为心脏相关疾病)之间的负相关关系还是十分明显。” 这项研究告诉我们,在其他健康因素相同的情况下(包括身高,因为身高可以很好地衡量儿童时期的健康和营养状况),在一个低级别岗位工作真的可以“置人于死地”。

有的读者看到这里或许会怀疑了,这一点很好,因为在统计学中,持怀疑态度是值得提倡的第一反应。我在本章一开始的时候就表示低级别的工作对健康不利,这里的“低级别”指的是对自身工作的控制力和话语权不高,不一定与行政级别挂钩,一项对包含10 308名英国公务员的样本的跟踪研究就试图理清这其中的差别。这一次雇员们还是按照行政级别进行划分—高级、中级和低级,只不过这一次参与者还必须完成一份15个题目的问卷,这份问卷主要是评价他们的“决策力或控制力”水平,其中设置的问题包括“你可以选择自己在工作中从事哪些项目吗?”对应的选项按程度划分(“从不”到“经常”);还有陈述句,比如“我在工作中可以决定何时停下来休息”。研究者们发现整个观察过程中“控制力低”的雇员患上冠心病的风险要高于“控制力高”的雇员。同时,研究人员还发现对工作要求高的雇员患心脏疾病的风险并没有比其他人高,在社会认可度低的岗位上工作的雇员也没有表现出容易患上心脏病的倾向。因此,似乎只有对工作缺乏控制力和话语权才是“生命杀手”。

“白厅”研究有两个非常突出的特点,称得上是当之无愧的“最佳研究”。首先,其研究结论在其他地方能找到佐证。如果搜索发表的公共健康文献,会发现“低控制力”的观点已经发展成为一个专有名词—工作疲劳,专指那些“精神负担重”、“决策水平低”的工作。1981~1993年间,已发表36项研究成果关于此类课题,其中绝大多数的研究成果都发现工作疲劳和心脏病之间存在显著的正相关关系。

其次,研究人员探索并发现了相关的生物学证据,解释为什么这一特殊的工作压力能够导致健康状况的恶化。要求严格但控制力低的工作环境能够导致一系列生理反应(如释放与压力有关的荷尔蒙),长此以往会增加患心脏类疾病的风险,甚至连动物研究都为解释其病变原理发挥了作用。研究人员发现,地位低的猴子和狒狒(它们与权力系统中处于底层的公务员的境遇有着相似之处)与地位高的同类在某些生理指标上存在差异,使得前者更容易患上心脏血管疾病。

所以,最好还是不要做一头地位低下的“狒狒”—我经常向我的孩子们灌输这一个观点,尤其是我的儿子。除此之外,一个更重要的信息是,回归分析可能是在处理大型数据的过程中帮助我们发现有意义结论的最重要工具。尤其是在评价工作歧视或寻找心脏病诱因的时候,我们是无法进行控制实验的,因此对于这些以及其他具有深刻社会意义的课题来说,我们需要使用本章所讲的研究手段。毫不夸张地讲,在过去的半个世纪的社科领域(尤其自计算机普及以来),有很大一部分的重要发现都要归功于回归分析。

回归分析大大地充实了科学方法,使人类更好地认识了这个世界、身体更加健康、生活更加安全。

那么,在使用这样一个强大、实用的统计工具时,我们又应该注意些什么呢?请接着阅读下一章的内容。

本章补充知识点

在进行回归分析(或其他形式的统计推断)时,小型样本数据会让推断过程变得稍微复杂一点。假设我们要分析的是体重和身高之间的相关关系,手中的样本只包含25名成年人,而不是之前像“变化的一生”那样庞大的数据库。逻辑告诉我们,只有25人的样本分析结果肯定没有3 000人样本更能体现整体成年人口的体重特征,本书一直在强调的一点就是:样本越小,结果就越分散。虽然一个25人的样本也能为我们提供有意义的信息,5人、10人也是如此,但这些信息的意义能有多大?

t分布可以回答这个问题。就算我们多次抽取25个成年人作为样本来分析身高和体重之间的关系,每一次得出的身高系数最后也不会围绕着“真实”系数呈正态分布,虽然它们的确分散在真实系数的周围,但得到的形状绝不会是我们所熟悉的代表正态分布的“钟”形。随着样本容量的降低,每一次抽样得到的系数会分布得更加离散,因此分布曲线两端的“尾巴”相比起正态分布曲线来会显得“肥大”。如果样本容量减少到10,那么离散程度会更高,得到的“尾巴”会更“肥大”。t分布实际上指的是各种不同容量样本的概率密度集体或“家族”,具体来说,样本中所包含的个体数量越多,那我们在分配适当的分布区间来评价研究结论时所拥有的“自由度”就越高。在更高阶的课程中,你会学习如何精确地计算出“自由度”,我们在这里姑且将其等同于样本中个体的数量。举个例子,一个样本容量为10、解释变量个数为1的基本回归分析的自由度为9。自由度越高,我们对该样本能够代表全体人口越有信心,其分布也会越“紧密”,如图12–3所示。

图12–3 t分布图

随着自由度的增大,t分布逐渐向正态分布靠拢。这也是为什么当我们在处理大型数据组时,可以直接使用正态分布曲线的基本特点来作为计算依据。

对于整本书一直在贯彻的统计推断过程,t分布的引入只不过稍微丰富了这个工具,我们的思路并没有改变,依然是先提出一个零假设,然后依据一些观察数据来检验其真伪。如果得到零假设结果的概率非常低,那么我们就可以推翻零假设。t分布唯一的变化就在于这些结果的发生概率与正态分布曲线有所不同。概率曲线的“尾巴”越“肥大”(例如自由度为8的t分布曲线),数据离散的程度越高,巧合的情况就越容易出现,推翻零假设的信心越显不足。

例如,假设我们正在计算一个回归方程式,零假设是某个具体变量的回归系数为零。在得到回归结果以后,我们便可以计算出一个t统计量,也就是所得系数与该系数标准误差的比。然后,再根据适合于样本容量的t分布(样本容量的大小直接决定了自由度水平)来评价所得的t统计量。当t统计量足够大时,也就是我们观察得到的系数与零假设相差甚远,那么就可以在某个显著性水平基础上推翻零假设。再强调一遍,这与整本书一直在使用的统计推断的基本流程是一样的。

自由度越低(相对应的t分布曲线的“尾巴”越“肥大”),所需要的t统计量越大,这样我们才可以在某个显著性水平的基础上推翻零假设。在上面假设的回归例子中,假如我们的自由度为4,我们所需要的t统计量至少要达到2.13,才能在0.05的显著性水平上(在单尾假设检验中)推翻零假设。

但是,假如我们的自由度为20 000(足以符合正态分布对样本容量的要求),t统计量只需要达到1.65,就可以在显著性水平为0.05的单尾假设检验中推翻零假设。

表12–1 体重回归方程式表

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈