首页 百科知识 神话15:智力测验中的偏见揭示

神话15:智力测验中的偏见揭示

时间:2023-12-05 百科知识 版权反馈
【摘要】:神话15智力测验对于特定人群是有偏见的在大众心理学中,几乎没有其他符号能像智力测验一样有如此多的误解。尽管测试还不够完善,但是IQ测试分数对学业成就以及包括工厂工人、服务人员、秘书、警察、电工等的工作表现的预测是最有用且有效的。尽管对一些测试来说可能是正确的,但是群体之间的差异并不是证明测试存在偏差的必要条件。幸运的是,许多研究者已经开始研究IQ测试对女性和少数民族存在偏见的可能性。

神话15:智力测验中的偏见揭示

神话15 智力测验对于特定人群是有偏见的

在大众心理学中,几乎没有其他符号能像智力测验一样有如此多的误解。因此,在探究哪一个是最为普遍的误解之前,我们还需要了解一点历史知识。

20世纪初,查理斯·斯皮尔曼(Charles Spearman)指出:许多不同的认知能力测试分数是成正相关的。在一篇经典论文中,他通过提出“一般智力”因素来解释这些能力之间的共同性。虽然,斯皮尔曼也承认有特殊能力的存在,但是大量的数据表明这些心智能力是以一般智力因素为基础的。一般智力因素的其他名称有“一般心智能力”、“IQ”以及纪念其提出者的“斯皮尔曼G因素”(Spearman's g)。和已经发行到第四版并且被广泛使用的韦氏成人智力量表(Wechsler Adult Intelligence Scale,Wechsler,1997)一样,大部分的智力测试都包括词汇、算数等分量表。这些测试的分量表之间的正相关和斯皮尔曼G因素(Spearman's g)是一致的。同时,这也就为人们在做一些重要的判断时仅用一种IQ分数的作为依据的做法提供了支持。

智力并不是人们任意建构的,它完全取决于我们是怎样对它测量的。以下是许多专家对智力的一致性定义。

一种非常一般的心智能力,涉及推理能力、计划能力、问题解决能力、抽象思考能力、理解复杂观点的能力、快速学习和从经验中学习的能力以及除此之外的其他能力。它并不仅仅是课本知识、一种狭隘的学术技能或是应付考试的小聪明。恰恰相反,它反映了一种领悟周围环境的更深更广的能力——理解懂得事物,或者是琢磨出应该做什么。

一些评论家指责IQ测试只能预测个体在其他IQ测试中的表现。在包括专业人士在内的关于IQ测试的网络论坛中,一个参与者评价道“IQ对除IQ之外的任何事物的预测力都非常糟糕”。然而,数据结果却显示出很大的不同。尽管测试还不够完善,但是IQ测试分数对学业成就以及包括工厂工人、服务人员、秘书警察电工等的工作表现的预测是最有用且有效的。和历史学家所想的一样,迪恩·凯斯·西蒙顿(Dean Keith Simonton,2006)甚至指出强调美国总统智商是因为它能很好地预测他们在工作中的成就。因为它们的这些效用,所以决策者在进行例如录取和雇用这样“高风险”(对他们的工作产生重要的影响)决策任务时经常会使用IQ测试。

在20世纪60年代兴起的民权运动中,许多研究者都调查了少数民族群体在智力分数上的差异。把群体之间的差异归因为测验偏见一时非常流行:大多数的研究者都认为IQ测试偏向男性白种人。如果IQ测试在女性和少数民族的测试中存在偏差,那么IQ测试的普遍使用以及重视申请人IQ分数的事实,就意味着IQ测试会导致广泛、不公正的歧视。潜在的测试偏差远不止对问题本身的吹毛求疵或政治立场的正确。

那么什么是测试偏差,如果遇到我们怎样知道是它?这里存在一个被广泛流传的误解:如果任意两个群体之间的分数都不同,那么这个测试就存在偏差。我们在很多大众读物中都能发现类似这样的误解,在对IQ测试及其他标准化测验的批判读物中尤为常见。在20世纪80年代早期,消费者保护倡导者拉尔夫·纳德(Ralph Nader,后来多次成为总统候选人)和他的同事的主张是应该取消SAT考试,因为比较贫困及许多少数民族学生的考试成绩比其他学生要差。杰·罗斯纳(Jay Rosner,2003)在一篇刊登在美国《国家杂志》(The Nation magazine)的文章中提到:主要民族和少数民族的学生在SAT条目上表现出的一致性差异,证明标准化测验是存在偏见的。

许多法官也持有同样的判断标准,即主要民族和少数民族两组群体在测试分数上存在差异,就暗示存在测试偏差。受拉里·瑞尔斯(Larry P.v.Riles)管理时期的影响,加利福尼亚的第九地区法院呼吁:应将无偏差的测试定义为“不同团体间的测试分数相同”,同时也对智力测试在鉴别受教育者是否为精神发育迟缓者等方面的使用制定了严格的限制。在另一个早期的法庭案件中,黄金法则保险公司(Golden Rule Insurance)控告美国牌照委员会和测试发行商。因为在驾照测试的一些题目中,黑种人答题的正确率要小于白种人。后来许多法官理所应当地把群体之间测试分数不同的案件归结为一个既定事实:测试本身存在偏差。(www.xing528.com)

但是,这种流行的观点存在一个问题:事实上这些群体可能的确在测试特质上存在差异。几乎可以确定的是,从任何一个医生的病理记录中可以得出男性病人的平均体重要高于女性病人的结论。这一事实并不能表示测量病人体重的方法存在偏差,因为男性本来就倾向于比女性重。尽管对一些测试来说可能是正确的,但是群体之间的差异并不是证明测试存在偏差的必要条件。至少这一误解产生的原因可能是代表性启发式(见引言)的误用。在大多数的美国历史中,像种族间学业成就以及男性和女性工作地位等群体之间形成巨大差异的原因大部分都被归为社会偏见。所以在今天,当人们看到一个测试产生群体差异时,他们就会自动地将这些差异等同于偏见。

那么我们怎样才能知道群体在测试分数上的差异是不是由偏见造成的呢?诀窍就是关注这一测试预测的有效性。如果我们用IQ测试来预测受试者在学校或工作中的表现,那么我们必须收集测试者IQ分数及绩效的相关数据。如果群体在IQ测试分数和绩效数据两方面间存在巨大的差异,那就说明测试存在偏差。一个无偏差的测试既不会低估也不会高估任何一个群体成员的绩效表现。与之相反,如果群体在IQ分数上存在差异,但是在绩效上相似时,我们就可以说测试存在偏差。支持表现被高估的群体,并反对表现被低估的群体的推论方式,是一种不公正的辨别方式。

幸运的是,许多研究者已经开始研究IQ测试对女性和少数民族存在偏见的可能性。两个由美国国家科学院(National Academy of Science)专家召集成立的小组和由美国心理学会(American Psychological Association)派出的特别小组——每一个小组都有代表各个领域以及各种观点的个体——得出一致结论:没有证据表明类似于SAT这样的标准化测验低估了女性或少数民族的表现。就像任何一个科学争论最终会被解决一样,现在大部分专家都认同IQ测试是否存在偏见的问题已经得到解决。

理解这一点很重要:即使没有测试偏差也不能解释造成群体在IQ上产生差异的原因,这些差异很大程度上或者完全可以归结于社会不利条件或偏见等环境因素的影响。在某种程度上,当我们谴责测试偏差是造成IQ差异的原因时,我们可能会忽略造成这些差异的根本因素,或许有些因素可以通过社会制度和教育计划来补救。

抛开这些研究证据,一些心理学家声称测试偏差具有一定的真实性。原因是这样的,研究者不仅能够评估整个测试水平的偏差,而且可以评估组成测试的单个项目水平所存在的偏差。就像一个有偏差的测试会低估一个群体在相关能力测试的表现一样,有偏差的测试项目也会产生同样的效果。心理学家称这一现象为项目功能差异(differential item functioning,DIF)理论。对于任意的配对组(例如男性和女性或黑人和白人),我们都可以检验他们在IQ测试中每一项目上的DIF。假如两组成员在其他项目上的表现相同但在某一特殊项目上的得分不同,那么这一发现就证实存在项目偏差。通常研究者会发现IQ测试的一些项目达到了DIF的标准。罗伊·佛瑞德(Roy Freedle)和艾琳·考斯汀(Irene Kostin,1997)在SAT和GRE的词语类比项目中发现了许多题目都达到了DIF标准,包括“canoe:rapids”这样简单的题目和“sycophant:flattery”这样复杂的题目。乍看之下,在许多测试项目中都发现DIF似乎让我们对无误差的测试这一论断产生了怀疑。毕竟,证实存在DIF的项目怎么能不影响整个测试的分数呢?

事实上许多或者是大多数DIF的例子在数值上都很小。甚至在那些呈现出DIF的项目中,偏差的方向也是不一致的。一些项目支持这一组,其他的支持另一组,所以当所有项目得出一个总分时就会消除这些效应。所以,DIF并不一定会产生测试偏差。

通览全书我们发现,通常实验研究和流行观点之间的差距是很大的,特别是在智力这一领域。IQ测试不存在对女性和少数民族的偏见,它有效地预测了日常生活中很多重要领域的表现。在解释不同群体间的分数差异时,产生误差的真正原因在于我们谴责“信息”,即IQ测试本身,而忽视文化匮乏等潜在的环境解释因素。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈