效度的定义
效度(validity)是语言测试最重要、最核心的指标。什么是效度?效度与测试结果的意义和运用有关。简单地讲,效度指测试在多大程度上达到了期望和目的。或者更通俗地说,想测试的东西测到没有。这个解释似乎有点模糊,但概括性很强。
举两个例子:比如测试者的目的是测试考生的英语写作能力,就让考生在规定的时间内用英语写一篇文章,考生完成后测试者根据文章的质量给出分数,这个分数就是测试结果。得分高的考生如果确实写作能力强,得分低的考生写作能力确实弱,那么这个测试的效度就高。再比如有一种题型:在所给单词的某个部分下画线,要求考生指出另外四个单词的画线部分读音哪一个与所给单词一致。如下题:
hea dache A.grea t B.sprea d C.lea d D.crea te
考生选对答案的情况可能有两种:一是考生选对了答案,也能够正确地读出来每个单词;二是考生选对了答案,但读出来的音是错误的,甚至根本不会读。如果是第二种情况,测试结果就没能反映学生的语音能力,想测的东西没有测到,效度就低。
从这两个例子可以看出,想测试的东西没有测到,或者说测试的结果不能反映考生的实际情况,这个测试就没有什么效果,没有发挥应有的作用。这也证明了前面提到的观点,效度是测试的核心指标。
Messick(1995:742)指出:“效度的广泛定义是对证据和分数结果以及潜在的结果评价总结的解释和应用。这个综合的效度观把内容、标准和结果综合起来放进了一个综合的框架,该框架是关于实际测试的分数意义和用途的理性假设。”
美国教育研究协会、美国心理学会和(美国)全国教育测量协会在“the AERA/APA/NCME Standards(1985)”做了这样的叙述:
效度是测试发展中最重要的考量。这一概念指根据测试分数进行具体推测的合理性、意义和用途。测试是一个积累证据来支持这类推测的过程。可以对测试的分数进行各种推测,也有多种方式积累证据支持任何特定的推测。然而,效度是一个单一的概念。虽然证据可以以多种方式积累,效度总是指源于分数的证据对推测的支持程度。推测是关于对测试具体运用的有效性,而不是测试本身的有效性。(引自Osterlind,1998:62-63)
后来出版的该标准(2014:11)将效度定义为“证据及理论支持测试分数解释的程度”。
效度的特点
效度有以下四个特点:
1)程度性
效度是一个连续体,差别是程度上的,是高与低的问题,不是有和无的区别。Messick(1989)强调:“重要的是要注意到效度是一个程度问题,而非有无的事情。”
2)相对性
Messick(1989)也说明了效度的相对性:“关于效度的某个单一的方面,例如,内容的覆盖,一个测试可能不会在实施和条件方面完全合适。另一个版本的测试则可能更加符合测试规范。测试对效度的要求,对一个版本测试的一项管理生成的效度证据类型可能不同。例如,A版本的写作测试在内容覆盖和理论效度很强,但是阅卷人信度系数却低于0.9。也可能管理方式相同或不同,而效度的同一方面有变化。因此,效度应该被看作是一个相对的概念。”
3)语境性
Odendahl(2011:99)在支持上述观点的同时,还强调了效度的语境性特点:“效度不是测试的内部特性,也不是绝对的,而是理论、推理和证据一起支持分数的意向意义和分数运用的延伸。效度不仅仅是程度的问题,而且还是语境的问题。”
4)多面性
Weir(2005:13)认为,效度具有多面性,需要不同类型的证据来支撑测试分数的效度。这些证据不是选择性的,而是互补的。
效度整体观(www.xing528.com)
目前语言测试界普遍接受的是Messick的效度整体观,即效度只有一个,证明效度的证据可以来自多个方面。(韩宝成,2013)
Messick(1989)做了这样的阐述:
传统的对效度证据的分割和合并方式引出三个范畴的证据:与内容关联、与标准关联、与建构关联。然而,因为内容关联和标准关联的证据构成分数意义,这两个方面逐渐都被看作是建构效度的不同方面。这样,在某种意义上只留下了一个范畴,即建构关联效度。
•李清华(2006)把效度整体观的主要观点归纳如下:
•效度是一个整体概念,建构效度是核心;
•效度既不是对测试本身的评价,也不是对测试分数的评价,而是对测试结果解释和使用的评价;
•效度是针对一项测试的特定解释和使用而言,因为对同一项测试分数可能有不同的解释和使用;
•效度是一个程度高低的问题,而不是有无的问题;
•强调后果效度的重要性;
•效验过程就是收集、积累不同方面的效度证据支持对测试结果特定解释或使用的合理性;
•测试的开发者和使用者都有为效验举证的责任。
效度的验证
要全面验证效度是一个复杂的过程,涉及多个方面。这里只讨论一线教师通常可以操作的效度验证方法与途径。
我们可以直接观察到的有三个方面:形式、内容、建构。
从形式上看,测试的形式与目标是否一致。专业术语叫表面效度(face validity),这比较好理解。例如,用笔试的形式测试考生的语音能力,而语音能力要看口头读得是否准确,这形式上就不一致,表面效度就低。
从内容上看,测试的内容与目标是否一致,是否相关。专业术语称之为内容效度(content validity),也有的学者 (Weir,2005:19) 称之为语境效度 (context validity)。这也比较容易理解。例如,某学期期末考试,其目标应该是对学生该学期所学内容掌握情况的考查,而如果试卷内容中许多都不是该学期所学的,其内容效度就存在问题。还有一点就是测试的抽样是否典型,是否有代表性,是否考到了相关内容的重点,还有是否覆盖了主要内容。例如,考查学生语法能力的考试,如果没有涉及动词的时态语态,没有考查非谓语动词的运用能力,其内容效度肯定就有问题。偏题、怪题的内容效度就是很差的。
从建构(也称之为“构念”)上看,建构与测试目标是否一致。专业术语叫建构效度(construct validity),这个容易引起误解。曾经在公开发表的文章上就有教师把建构效度错误地解释为试卷的题型结构。对于建构,专业书籍是这样解释的:不能直接观察到的,但是基于实证证明或者从这类数据推测出的解释模型——一种假设的建构 (VandenBos,2015:239)。通俗一点的说法是,建构指的是理论框架或者理论解释。比如《课程标准》对语言能力的解释。如果试题考查大量脱离语境的语言知识,或者考查实际生活或学习中不可能遇到的难题、偏题,就很难说其建构效度高。虽然对于普通英语教师来讲,要对测试的建构效度做出比较准确的判断是不容易的,但是应该努力去做。
以上三个方面我们是可以从测试方法和试卷直接观察到的。另外一个一线教师也可以操作验证的是校标关联效度(criterion-related validity)。校标关联效度指“本次测试的结果与某一个独立的并且高度可靠的考生能力评价的一致程度”(Hughes,2003:7)。例如,某教师命制了一套高考英语模拟试题,我们要验证其效度,就可以让一个班的学生先做一套评价较高的往年高考试题。这套试题可以被看成是“独立的并且高度可靠的考生能力评价”,因为是专业机构的专家命制的,而且经过高考检验的。然后学生再做教师命制的这套题。我们比较两套试题的结果,一致性、相关性越高,说明教师命制的试题的效度就越高。
Rodriguez & Albano(2017:1)认为,由于效度是为对测试分数所需要的解释和运用提供证据,因而是测试最重要的方面。加强效度的一些工作也应该做在前面,如命制好题,整合测试设计、测试内容与教学目标等。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。