一、语言测试概述
1.语言测试的发展
语言测试是随着语言教学理论的发展而发展起来的。在语言教学理论发展的不同时期,由于人们的语言观不同,所采用的语言测试的方法和内容也不尽相同。纵观语言测试发展的历史,语言测试大致经历了以下几个变化时期:
前科学时期(1960年以前):在此时期,语言教师缺乏对语言本质的认识,只是将语言作为一个符号体系,将语言看作是一门知识,测试中对技巧、技能的考查没有量度依据,语言测试测什么,以及如何测,完全由教师的经验和主观判断来确定,当时测试主要采用短文写作—翻译法,通常包括翻译、写作和语法分析等项目,测试结果主要依据教师的主观判断。
心理测量学—结构主义时期(以1961年Robert Lado发表的“语言测试”一文为转折标志):在这个阶段,以Bloomfi eld为代表的美国结构主义语言学家第一次提出语言是一套形式结构的论断。以Skinner为代表的美国行为主义心理学家认为语言行为是刺激—反应的过程,是习惯形成的结果。受结构主义语言学和行为主义心理学的影响,人们认为语言学习就是通过大量练习、模仿获得语言机能和语言习惯的过程。同时,心理测量学理论对语言测试也产生了很大的影响。心理测量学认为语言可以分解为语言技能(听、说、读、写)和语言成分(语音、词汇、语法),一个人的语言能力通过运用这些语言技能和语言成分得以体现。因此,心理测量学—结构主义语言学测试的主要形式是离散项目测试,与前科学语言测试相比,更加注重听说技能,尤其是听的技能。Lado(1961)是听说法的倡导者,对离散项目测试的形成有着积极的影响。他认为语言是一个交际习惯系统。这些习惯涉及形式、意义及其在几个层次的分布(即在句子、从句、短语、单词、词素、音位等层次)。离散项目测试在上世纪50至60年代占统治地位,到80至90年代初仍然是主流。
交际法语言测试时期(上世纪80年代至今):Chomsky在1965年提出了语言能力和语言行为的概念。1972年,社会语言学家海姆斯(Hymes)提出了交际能力的概念,认为使用语言不但要能够按照语法规则产出形式合格的句子,而且还应具有在不同的语境中合理使用这些句子的能力。20世纪80年代Canale和Swain提出了交际模式,该模式认为交际能力包括语法能力、社会语言能力、语篇能力和交际策略能力。到了90年代,Bachman提出了一个新的语言交际能力模式,该模式认为交际能力是将语言知识和语言使用的场景结合起来创造并解释意义的能力,它主要由语言能力(language competence)、策略能力(strategic competence)和心理生理机制(psychophysiological mechanisms)三部分组成(Bachman & Palmer 1999;Bachman 1999)。该模式认为语言的使用是各种知识、技能和心理过程交织在一起互相影响、相互作用的动态过程。以上不同学者的理论和观点对外语教学产生了深远的影响,交际教学法出现了,于是交际法语言测试便应运而生。交际法语言测试强调语言的意义、语境、语言的真实性、语言的运用能力等。交际法语言测试强调测试任务的真实性和交际性;强调考查学生的语言使用(use)情况,而非语言的用法(usage);强调考查学生完成某个交际任务的能力,而非某个语言机能或某个语言点的掌握情况。交际法语言测试的特点是:(1)测试设计有“信息沟”(information gap),要求学生从已知信息中获取未知信息;(2)测试各项目之间具有关联性;(3)根据学生的语言需求确定所测的内容和语言技能等;(4)侧重全面测试语言能力,包括语言知识、语言功能、语用等(Bachman 1999;Heaton 1991)。交际法语言测试是从交际教学法发展起来的,与其他语言测试方法的不同之处在于:它强调测试任务的交际性和真实性,不仅测试语言知识,而且将测试的重点放在运用语言的能力上,强调考察学生语言的交际能力。
2.语言测试的定义和种类
《朗文语言教学及应用语言学辞典》(Richards et al. 2000)将测试定义为“任何衡量能力、知识或表现的做法”。Carroll(1968)将测试定义为“用来获取某些行为的做法,其目的是从这些行为中推断出个人具有的某些特征”。
总的来说,测试通常用量化指标(如分数、等级)来解释或区分考生的语言行为,是一种具体的、为获取某一行为样本而设计的定量分析方法。
按照不同的学习阶段、考试目的、语言项目以及对成绩的诠释,测试可分成以下不同的类型。
从测试目的来看,测试可分为:水平测试(profi ciency test)、学业成就测试(achievement test)、诊断性测试(diagnostic test)和编班测试(placement test)。(1)水平测试检测学习者的语言综合运用能力和对语言的整体掌握情况,不与特定的课程相联系。(2)学业成就测试检测学习者对某一特定课程或教学大纲的掌握情况。学业成就测试与教学大纲联系密切,所测试的内容必须在教学大纲的范围内。(3)诊断性测试可以显示学习者对某些语言知识和技能的掌握情况,可以及时发现问题,为教师提供教学效果或教学质量方面的信息,从而增强教学的目的性和针对性。诊断性测试在教学过程中可以随时使用,不受阶段的限制。(4)编班测试用于测试考生的水平,将他们编成不同的班级。
根据对测试成绩解释的不同,测试可分为:常模参照考试(norm-referenced test)和标准参照考试(criterion-referenced test)。(1)常模参照考试旨在将某一个考生的分数与同一考试中其他考生的分数进行比较,也就是说,对一个考生成绩的解释是相对于其他考生的成绩而言的。(2)标准参照考试通常根据某一既定标准来解释考生的成绩,即衡量考生是否达到了预期标准。
根据评分方法的不同,测试可分为:主观考试和客观考试。(1)主观考试是按照阅卷人个人判断进行评分的考试,没有统一规定的标准答案。常见的主观考试有翻译、写作考试。主观考试通常信度低,效度高。(2)客观考试有标准答案,信度很高,但效度不高。客观考试通常包括多项选择题和正误判断题。
根据语言测试项目的不同,测试可分为:离散项目测试(discrete-point test)和综合性测试(integrative test)。(1)离散项目测试是测试单个语言项目的测试。离散项目测试的理论基础是语言由不同的部分,如语法、语音、词汇等成分构成,各组成部分可以单独进行测试。离散项目测试通常采用多项选择题的形式,每道题只考一个考点,主要测量学生的语言知识,而不是语言能力。(2)综合性测试可以同时测试多项语言知识和技能,主要考查学生的综合语言能力。综合性测试的特点是在语境中考查学生的语言知识和技能,侧重考查语言的意义,而不是语言的形式。
二、语言测试的信度
信度(reliability)是衡量语言测试的一个重要标准。信度指某一测试的测量结果在多大程度上具有一致性。简言之,就是测试结果的可信度、可靠度,也就是考分的一致性。语言测试信度的高低主要说明测试结果在多大程度上反映了受试者真实的语言行为。如果某一个测试在不同情况下或对不同的人进行施测时,都能得出相同的测试结果,那么该测试就具有较高的信度。测试的信度通常用相关系数来表示,相关系数一般在0.00与1.00之间,相关系数越大,信度就越高,相关系数越小,信度就越低。人们通常用以下三种方法来测定测试信度:重复测试法、平行卷测试法、对半分析法。
1.重复测试法
重复测试法(test-retest method)就是对同一组学生重复使用同一份试卷来确定试卷的信度。两次考试之间需间隔一段时间,否则学生在第二次考试时会凭借记忆答题。重复测试法需要控制一些变量,如要控制学生在两次考试期间进一步学习新的内容而获得进步等。
2.平行卷测试法
平行卷测试法(parallel-form method)指同一测试用不同的试卷来测量学生完全相同的语言技能或能力。不同的试卷使用相同的测试方法,并且在测试的内容、题量、题目的难度、试卷的长度等方面都必须吻合。一般来说,如果平行试卷测得的分数相近,那么就表明这次测试是有效的。
3.对半分析法
对半分析法(split-half method)指根据试卷两个对半部分(如单号题目的得分和双号题目的得分,或前一部分试题的得分和后一部分试题的得分)的相关系数来估计试卷的信度。两个部分分数的一致性越高,试卷的信度也就越高。因此,对半分析法通常用来测定内部一致性信度(internal consistency reliability)。
三、语言测试的效度
效度(validity)是衡量语言测试的另一个重要标准。语言测试效度是指测试是否或者在多大程度上测量了它所期望测量的内容,考生的成绩是否合理地说明了该考生的语言能力。语言测试的效度表明的是一种相关性(relevance),即测试与测试目标的关联程度。效度主要包括以下几个方面的内容:表面效度(face validity)、内容效度(content validity)、标准关联效度(criterion-related validity)和结构效度(construct validity)。表面效度、内容效度和结构效度是测试的内在效度(internal validity),标准关联效度指测试结果是否或在多大程度上与一些外在标准相关,因此是测试的外在效度(external validity)。
1.表面效度
表面效度指测试的“表面可信度或公众的可接受度”(surface credibility or public acceptability)(Ingram 1977),即:表面效度指测试是否达到预先设想的测量知识或能力的程度,通常由观察者的主观判断而定。例如,阅读测试中如果有许多学生尚未掌握的词汇,那么,该阅读测试就缺乏表面效度。
2.内容效度
内容效度指测试内容包括所要测试的语言技能、语言结构等方面具有代表性的要素,以测试能充分地测出所要测量的技能的程度为基础。例如,语音技能测试如果只测试正确发音所需技能中的一部分,如只考单音发音,而不考该单音在单词、语句中的发音,其效度就会很低。
3.标准关联效度
标准关联效度指该测试与某一个“独立并且相当可靠的学生能力测试工具”(Hughes 1989)之间的关联程度。这里的标准是指后者。如果两者之间的关联度高,就表明前者具有标准关联效度。标准关联效度包括同期效度(concurrent validity)和预测效度(predictive validity)。
同期效度指该测试与某一个旨在测量同一技能的测试的相关程度。由于后者是作为验证前者标准关联效度的标准和尺度,因此,在选择“标准”试卷时,要注意试卷本身的信度和效度,试卷的难度和题型要与被比较的试卷相仿和一致。预测效度指某一测试是否能较好地预测出被试者将来的语言水平。
4.结构效度
结构效度是语言测试的主要效度,是一切其他效度的基础。“结构”在测量学中是指待测量的属性或事物,在语言领域中可以指“交际能力”、“英语能力”等。人类社会在发展进程中不断发现需要测量的事物,设计出合适的测量手段或工具至关重要。检验有关测量工具能否有效地用来度量某个属性——即“结构”——就是建立该工具的结构效度。结构效度指测试项目反映某个理论的基本方面的程度。例如,某一交际能力测试和交际能力理论的关系越大,该测试的结构效度就越高。
Alderson等人(1995)认为,可以用定性和定量这两种方法来确定测试的结构效度。定性的方法是由专家依据相应的结构理论来评定测试题目或任务与所要测量的结构的对应关系;也可以使用语篇分析法研究受试的“产品”(产出的语言),并将其语言和语用特征与结构定义加以比较。定量的方法有:测试项目的相关分析,测试成绩和考生特征之间关系的分析以及因素分析等。
5.效度与信度的关系
如上所述,信度是指测试结果(分数)的可靠性,主要说明考试结果与语言行为之间的关系。效度是指测试达到预定目的的程度,反映所测试的语言行为与语言能力的关系。一项测试如果没有信度,也就无所谓效度,信度是效度的前提或必要条件。然而,有信度的测试未必就一定有效度。例如,用一份信度较高的听力试卷去测试学生的阅读能力,即使测试结果具有较高的稳定性,该测试也不具有效度。
对于一项测试来说,信度与效度都是必不可少的。效度要求语言测试注重语言的整体性、艺术性、测试题目的多样性(diversity),测试的内容和形式尽量接近语言运用的实际。信度要求语言测试强调语言的科学性,将语言进行分割处理,注重测试题目的同质性(homogeneity),使语言测试的内容与形式脱离语言运用的实际。因此,任何测试都难以兼有极高的信度和极高的效度。例如,以离散项目测试为主要特征的结构主义语言测试能保证较高的信度,而强调以真实的语言为测试内容的交际测试能保证较高的效度。因此,语言测试应侧重考虑效度要求,在此基础上尽可能地追求信度。有时为了提高效度而牺牲一定程度的信度是必要的,然而,如果为提高信度而牺牲效度,测试就变成了准确测量我们测量目标以外内容的工具(Weir 1990)。
四、语言测试设计
语言测试设计的过程通常是:先根据教学大纲拟定有关语言能力的理论定义,确定分项指标,再拟定操作定义,具体说明指标的测试方法和步骤,然后编写试卷。
1.明确考试目的
在评估考试质量的诸多标准中,最重要的一个标准是考试的效度,即考试是否测量了人们所希望测量的知识和技能,是否达到了测试的目的。因此,明确考试的目的是教师设计试卷的依据,又是最终评价考试质量的标准。
要明确考试目的,应该认真研究、领会教学大纲中各阶段的教学目的、目标和教学要求,并思考以下几个方面的问题:
(1)所测量的知识和技能对培养学生的语言能力和交际能力起什么作用?
(2)通过本阶段的学习,要求学生形成哪些语言行为?最终要达到的目的是什么?
2.确定考试内容
考试内容是考试规范中一个重要的组成部分。首先,它是考试内容效度的具体体现;其次,它是考试结构效度的重要保证,没有内容效度就无法确定结构效度。考生对语音、语法、词汇等语言知识的掌握是通过他们的行为表现出来的,因此,在决定考试内容时,除了要考虑语言本身的内容外,更要考虑学生掌握了这些知识后所表现的语言行为,以考查学生运用语言的能力,如考查学生“提出请求”,“发表意见、评论”,“询问、给予信息”,“问路”,“描述人物、地点、物体”,“叙述事件”等语言能力。
3.决定考试题型
考试题型取决于考试的目的和考试的内容,同时,还要考虑各类考题自身的特点,使所选用的题型能最大限度地符合考试目标和考试内容的要求。
在外语测试中,人们经常选用以下题型:多项选择题,正误判断题,匹配题,补全句子题,完型填空题,转换题,简答题,论述题等。
(1)多项选择题:是目前考试中用途最广、最常见的题型。多项选择题通常由两部分组成:题干(stem)和备选项(options, responses, alternatives, choices)。题干可以是直接提问或者以不完整的句子形式出现,目的是为了设置问题情境。备选项中包括正确选项(answer, correct option, key)和干扰项(distractors)。备选项数目不等,有三项、四项或五项,大部分考试以四项为常用形式。
多项选择题具有以下特点:评分客观且易操作,评卷信度高;多项选择题是一题一个考点,考试目标明确;多项选择题既能测试语言知识(如语法、词汇等),又能测试语言技能(如阅读理解、听力理解等)。
不足之处在于:无法测试语言能力的运用;普遍存在考生猜测答案的现象;命题工作耗时费力,对命题人员的业务素质要求高;多项选择题是一种间接考试的形式,是否具有效度一直是人们关注的问题。
(2)正误判断题:一般由一个句子组成。该句子可以表述一个事实,也可以表明一个观点。正误判断题侧重考查学生的判断能力,在阅读理解或听力理解中是一种常用题型。
正误判断题具有以下特点:命题难度不大;评分客观,信度较高;题目覆盖面广。
不足之处在于:一道题目只能包括一个考点;由于只有正误两个答案,因此猜测答案的概率较高,学生有50%的机会选择到正确答案。
(3)匹配题:是一种用途较广的考题形式,可以用来考核词汇知识、语法知识、对概念的理解、事实或观点之间的关联等。匹配题一般由两大部分组成:匹配栏与被匹配栏。匹配题不仅可以考查学生的识记能力或理解能力,还可以考查学生的简单语言运用能力。不足之处在于:不适于测量较高层次的教学目标,无法测试学生的综合语言运用能力。
(4)补全句子题:一般由一个或多个句子组成,其中个别词或句子被删去,学生必须按照要求填入恰当的词或句子以补全意义。补全句子题的特点是:编写题目较容易;考试目的明确;既能测试语言知识,又能测试语言运用能力。补全句子题评分有一定的难度。
(5)完型填空题:是补全句子题在形式和内容上的一种延伸,分为有提示、无提示、多项选择、混合选择等类型。完型填空的理论依据来自格式塔心理学(The Gestalt Psychology)。该理论认为,人们观察物体形状时,会下意识地将形状中的空缺部分补上去。同样,如果一篇短文中去掉了几个词,就像有空缺的图形一样,人们也会根据前后的线索,将它们填补上去,使之成为完整的文章。完型填空发明之初是用来测试文章的可读性,后来被广泛应用于语言测试之中。完型填空题的特点是:可以同时测试一种以上的语言知识或技能;题型变化多,因此命题具有灵活性;不仅能测试语言知识,还能测试语言的简单运用。
完型填空题命题注意事项:要明确考试要点,例如,是考查实词还是虚词?或两类词都要考?不宜删除材料中第一句中的单词或词组,应保留第一句的完整性,这有助于学生理解短文的大意;提供详细答案和评分要求。
(6)信息转换题:是将文字内容转换成图表,或将图表转换成文字,常用于阅读、口语、听力和写作考试中。信息转换题的特点是:强调语言的运用;要求学生同时运用一种以上的语言技能;与现实语言运用环境关联度大,具有较高的真实性。不足之处是:考生一种技能的水平影响其他技能水平的发挥。(www.xing528.com)
(7)简答题:通过学生的简短回答来测试学生在某一方面的能力或技能,是测试阅读和听力的一种有效形式。简答题的特点是:直接考查学生的能力,不存在猜题的可能性;强调语言的产出技能;可以满足不同层次测试的要求,如测试学生对阅读(听力)材料细节的理解、对阅读(听力)材料大意的理解、对阅读(听力)材料隐含意义的理解等。
简答题命题注意事项:提示部分要说明答题要求,如使用完整句还是非完整句、字数的限制等;提供详细的评阅标准,规定具体的评分细则。
(8)论述题:要求学生根据考试要求详细表达自己的观点或见解,答题要求具有逻辑性、合理性、完整性和流畅性。论述题常用于测试写作能力和高层次阅读理解。论述题的特点是:直接测试学生的能力;具有较高的效度和真实性;强调学生的思维能力和语言运用能力。
论述题的不足之处是:没有标准答案,评分难度大,因而影响考试的信度;需要人工阅卷,比较费时耗力。
4.试卷设计与编写
1)考试项目复查
试卷编写之后,应由本人或他人再复审一遍。复审可以从下列几个方面检查试卷的质量:(1)试卷是否有效测试了学生的某一个学习行为;(2)测试不同学习行为(能力)是否采用了相应的题型;(3)考试要求是否陈述清楚;(4)考试项目难度是否适中,应将题量和难度结合起来考虑,题量太多会增加学生答题的难度;(5)试题覆盖面是否具有内容效度,是否在教学大纲的框架范围内。
2)考试项目排序
考试项目排序一般采用下列原则:(1)将测量同一类学习行为(或能力)的项目编排在一起。一般来说,将测量同一学习行为的项目集中在一起,并标以适当的标题,这样有助于教师根据考试结果找出学生的学习问题。(2)将形式相同的项目集中在一起。在可能的情况下,将形式相同的项目集中在一起,如将所有的选择题集中在一起,所有的问答题集中在一起,这样每大类试题只需要一个答题说明就可以了。这样做还可以提高考生的答卷效率,因为学生做同一类题目只要运用一种回答方法即可。在大规模考试中,客观题往往由机器阅卷,主观题由人工阅卷。将试题按主、客观试题编排,也有利于评卷。(3)根据从易到难的原则编排试题。考卷开始部分的试题应该容易些,然后逐步加大难度,难度大的题项放在最后。这样的编排方式能减少学生的考试焦虑,增强答题信心。(4)按所测量的不同技能排序。如果一份试卷测试多项技能或能力的话,一般按照听、读、写的顺序来编排题项,即测试听力理解能力的项目放在最前面,测试阅读理解能力的项目放在中间,测试写作能力的项目放在最后。测试语法或词汇的项目,可放在阅读项目之前或之后。
五、语言技能测试
1.听力测试
听力理解是外界语音输入信息与人们内部的认知结构相互作用的结果,是一个十分复杂的心理过程。从心理语言学的视角来看,听力理解分为三个不同的层次:(1)语音识别:主要通过知觉加工对以听觉形式呈现的语言刺激进行初步的编码加工。(2)句子理解:句子的理解过程以语音识别为基础,通过对字词的语音进行编码以达到对字义的确切把握。在此基础上,还必须对句子进行句法分析和语义分析。(3)语段理解:在一般情况下,人们听到的不是单个独立的句子,而是由一系列的句子组成的语段。语段理解的基础是单句理解,但又高于句子理解。
听力测试要充分考虑听力理解的特殊性。听力测试的目的是测试学生理解不同体裁和不同场合话语的能力,从测试学生理解正式课堂内话语的交际能力,到测试学生理解课堂以外非正式场合话语的能力,逐渐过渡到测试学生理解目的语国家人们在各种场合话语的能力。
听力测试的形式很多,人们普遍使用的有多项选择题、正误判断题、填空题、转换题、简答题、听写等。
多项选择题可用于不同层次的听力测试,可以用来考查学生分辨音素、识别单词、理解句法结构、理解文体信息、理解文章大义、理解文章的具体信息等的能力。
正误判断题主要用于测试初级听力技能,如分辨音素、语调或识别单词的能力等。
填空题的一种形式是补全句子,另一种形式是完型填空。完型填空对听力要求较高:它不仅要求学生听懂内容,而且还要根据上下文填上合适的单词或词组。
转换题可用来测试理解大意或主要信息、具体信息的能力。转换题的一种形式是重新排序题,另一种形式是信息转换题。
简答题是一种简易有效的测试题型,为了统一评分标准,命题时可以对简答题回答的字数有所限制:可以采用单词回答、非完整句回答或完整句回答等形式,使简答题能更有效地达到测试目的。
听写作为一种传统但有效的测试形式,在教学与评估中得到了广泛的运用。听写属于综合性测试,与多项选择题一样,可以用来测试不同层次的听力能力。听写测试不仅测试学生的听力理解,还可以反映学生的记忆水平。一般来说,听写可分为单句听写(sentence dictation)或段落听写(paragraph dictation)。段落听写可分为标准听写(standard dictation)和填空听写(partial/spot dictation)。
听写的评分有以下几种方法(邹申、杨任明2005):
(1)如果听写是一个独立的测试项目,总分可定为100分。每一个错误(拼写错误、漏写或增加单词、顺序颠倒、语法错误等)扣一分,扣完为止。其中重复出现的拼写错误只扣一次分。
(2)根据比例扣分:如一篇听写共有100个词,满分为10分。当听写中有25个错误时,占总词数的25%。也就是说,这篇听写失去了总分的25%,即4分,因此得6分。
(3)另一种处理错误的方式是将错误分类,然后分别算分。常见的方法是:标点符号错误,每4个扣一分;拼写、语法等其他错误,每两个扣一分,扣完为止。
2.口语测试
口语是一个动态的、双向的语言信息传递与交流的过程,它涉及到口语信息发出者、口语信息和口语信息接受者三个因素之间的互动关系。这种“双向主体”的交流过程对信息发出者和信息接受者提出了很高的要求。首先,口语信息发出者需要尽可能运用标准的语音语调、适当的语速、正确的句法结构,明白无误地表达自己的思想,这样才有利于口语信息接受者对话语和语境的理解。口语的本质特征是“可理解性”(intelligibility),“可理解性”是口语交流的前提,也是进一步交流的基础。由于在正式或非正式场合中,会话者都需在极短的时间内迅速进行口语信息的输入、筛选、分类和总结,再将有关口语信息进行二次归纳和整理后输出,完成意义构思、语言选择、口头表达等一系列活动。口语过程的特点决定了口语表达的难度,因此,口语测试要针对口语过程的特点,有效地测量出考生的口语水平。
1)口语测试形式
口语测试大致可以分为以下三大类:直接型口试、间接型口试和半直接型口试。
直接型口试是在一个接近真实语言使用的语境中考查学生的语言使用和表达能力,具有较高的卷面效度。然而,由于直接型口试瞬间性较强,由此增加了评分的难度;其次,直接型口试需要培训大量考官,并且逐个测试考生耗时费力;第三,人工评分结果主观性较强,从而影响测试的信度;第四,考官的语言水平和情绪影响考生口语水平的发挥。直接型口试主要有面试型口试(oral interview test)、小组讨论(group discussion)、对话(dialogue)、简短谈话(short talk)、看图说话(picture talk)、复述(retelling)、朗读(reading aloud)等形式。其中面试是最常用和最真实的口试形式,是一种在自然语境中测试口语整体能力的有效手段。
间接型口试主要是以纸笔方式进行的口语考试。最常见的是使用多项选择题形式测试学生的语音、语调、重音、口语交际等知识,由此间接、片面地推断出学生的口语能力。该类考试的评分稳定性较高,但缺乏效度,不能真实地反映学生的口语能力。
半直接型口试,即录音口试(laboratory oral test),是将统一的、具有真实性的考题事先录制在磁带上,让考生按照要求,有针对性地对录制的考题进行口头操作(或提问和回答,或个人独白、对话和讨论),考生所有的口语活动均被录在磁带上。测试时不需要考官与考生面对面地交谈,一个考官可以同时测试大批考生,节省人力、物力;考生的口语水平的发挥不受考官的语言水平和情绪的影响;相同的考题使测试的信度得到保证。该类口试可以增强评分的客观性,降低费用,能较好地保证考试的质量,适合于大规模的口语考试。
2)评分标准
口语测试的评分标准可以分为两类:整体评分法(holistic scoring)和分析评分法(analytic scoring)。
分析评分法是将口试表现分解为若干个考查点,如语音语调、词汇、语法、流利程度、准确性、内容的相关性等,不同的考查点有不同的分值、可作不同的加权处理,各考查点的得分总和即为口试的总分。整体评分法是由评分员凭总体印象打分。整体评分法的优点是能从总体上把握考生的口试表现,评分的速度比较快;而分析评分法由于注意口试表现的各组成部分,评分速度稍慢一些,但评分更为准确一些。
3.阅读测试
阅读是英语学习过程中的一个重要组成部分,是听、说、读、写等技能中一项重要的语言技能。人们通常认为阅读有以下目的(Wallace 1992;引自邹申、杨任明2005):(1)生存需要(reading for survival):这类阅读一般是为了立即满足某种需求,如阅读路标、确定行走路线等。(2)学习需要(reading for learning):通过这类阅读活动达到学习语言、获取知识和信息的目的。(3)休闲需要(reading for pleasure):是人们在闲暇之时通过阅读活动获得快乐的一种阅读方式。
人们必须具备一定的阅读能力才能顺利地进行阅读活动。那么,什么是阅读能力呢?Lennon(1970)根据因素分析的方法得出结论,认为阅读能力由以下四个部分组成:(1)一般言语因素:主要指学生所掌握的词汇量和对词汇的熟悉程度;(2)对语义明确的文字内容的理解:主要指学生对文章字面意义的理解能力;(3)对隐含意义的理解能力:指对书面材料的内容进行推理的能力;(4)鉴赏能力:指学生理解作者的写作意图、情感和思想的能力。
人们的阅读方式主要有精读和泛读:(1)精读(intensive reading)也叫分析性阅读,主要用于学习课文中的语言知识项目,巩固和扩展学生的词汇和语法知识,同时,正确理解文章的观点、论证过程和结论,深入领会作品的精髓。(2)泛读(extensive reading)也叫综合性阅读。泛读通常速度较快,接触的阅读材料较多。这种阅读方式不追求对阅读材料的透彻理解,只要求浏览全文,掌握大意,讲究阅读的流畅性。通过泛读,学生可以接触大量的语言知识,可以巩固和加强精读效果,从而进一步提高阅读能力。
在选取阅读测试材料时,要控制好阅读材料的长度,保证阅读材料的真实性和多样性,把握阅读材料的难易度,力求阅读材料有充分的信息点。
阅读测试主要有三种形式:多项选择题、正误判断题和简短回答题。
多项选择题是一种非常普遍的阅读测试题型,在各类考试中都得到了广泛的运用。考生通过在多个选项中选择某一正确答案来表示其对某一阅读部分的正确理解。在考试中采用多项选择题有以下优点:无论是机器阅卷还是人工阅卷,评分既简单、可靠,又客观、公正,信度高;在大型考试中,采用多项选择题,用机器阅卷,可以缩短整个考试、阅卷的过程,从而降低考试成本。
但多项选择题也存在着不足,在所有题型中,多项选择题受到的批评最多,如:考生可以猜测答案,因此,仅仅根据得分很难判断考生的真实水平;选项很难编写,尤其是干扰项的编写;易于作弊。
正误判断题和多项选择题一样,也是一种常用的题型。在对初学者的阅读测试中,这种题型用得很多。它的优点是易于编写,缺点是学生的猜测率较高。
简短回答题也是一种测试阅读能力的常见题型,答案具有开放性,评分具有主观性。简短回答题的优势在于:简短回答形式多样化,如问答题、信息转换题、完型填空题、选择性填空题等形式;命题方法简单,提问范围广。简短回答题可以激发考生的兴趣,并且考生无从猜测答案,能够较真实地反映考生的阅读水平和能力。
简短回答题的不足之处在于:学生的回答受其表达能力的影响。有的学生能理解文章的内容,但表达能力有限,无法将自己对文章的理解用文字表达出来。
从世界范围来看,英国、美国测试界在题型选择上有着明显的差异。美国的托福、GRE采用多项选择题型,而英国坚持采用多项选择题以外的题型——主要是简短回答的形式——作为主要测试手段,即使是大规模的测试也不例外,如IELTS(雅思)考试。
4.写作测试
写作是英语学习中的一个重要的技能,主要反映学生的语言产出能力。一篇作文能测量学生对词汇、语法等语言知识的掌握情况,同时,也能反映学生的逻辑思维、思想组织、语言表达等能力。由于写作测试是一种行为测试(performance test),以学生实际使用语言的表现为评价依据,因此对教学具有积极的反拨效应(washback effect)。
外语写作通常分为初级、中级、高级三个阶段。在初级阶段,学生的写作主要停留在句子层面上,造句以模仿为主。对该阶段的测试应放在句子结构和词汇运用的正确性上。在中级阶段,学生写作的重点转移到话语层面,写作不仅注意形式的正确,还要考虑内容的贴切,以及句子之间、段落之间的衔接性和连贯性。在高级阶段,写作已进入了自由发挥的境界,写作以表达内容为主,语言形式的运用服从于内容表达的需要。因此,文章的构思、文体的运用、表达的效果是衡量写作质量的标志。
写作测试作为一种综合性的测试,主要测试学生的语言基本知识、文章的谋篇布局和内容的选择、文体和修辞手段的运用等能力。
1)写作测试形式
写作测试一般分为主观题和客观题。
主观题主要采用命题作文的形式,通常有提纲式作文、图表作文、主题句作文、书信作文等。命题作文要求学生描述事实、阐述观点、发表评论等,对写作的内容不作限制,评分具有主观性。一般来说,命题作文由三部分组成:提示(prompt)、题目(topic)和要求(requirement)。提示的作用是提供写作情景(context),例如,为什么要写、写给谁等。要求部分包括作文的长度或字数、作文的评分要求等。
客观题有多项选择题、补全句子、完型填空、转换题(如改写句型)等形式。多项选择题主要测试学生对词汇、语法知识的掌握和运用情况。补全句子、完型填空、转换题等题型主要测试学生的谋篇布局和组织能力、对不同文体的把握能力等。
2)评分标准
写作测试的评分标准通常可以分为两类:整体评分法和分析评分法。
整体评分法将作文看作一篇完整的文章,阅卷人员根据阅后的总体印象打分,但这个总体印象是有明确的档次特征的。整体评分法将所阅作文样本分成几个档次,每个档次与一个分数或分数段相对应。每个档次还必须明确该档次作文的特征,包括内容、语法、组织、表达等方面,各档次之间存在明显的区别。阅卷人员注重的是作文的整体质量,而不是局部现象和特征。如CET写作和托福写作所采用的就是整体评分法。
分析评分法将作文的特征分解为具体的成分,如语法、内容、组织、表达和连贯性等。评阅人根据要求给每个成分评分,如思想内容占总分的50%,组织结构占总分的10%等,各个成分的分数总和即为总分。雅思写作所采用的就是分析评分法,即考官根据具体的评分细则给考生的作文分项打分。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。