考词汇中的“考”具有什么样的含义?“考”在这里指的是对词汇进行“测试”。测试又是怎样的一个概念?为了回答这个问题,需要把几个意义相近的概念加以区分,它们分别是“测量(measurement)”“测试(test)”“评估(evaluation)”和“评价(assessment)”。Bachman(1990)对前三个概念进行了细致的区分,后来又对“评价”的含义进行了定义和具体的解释(Bachman, 2004;Bachman & Palmer,2010)。
测量指根据明确的程序和法则,对特定的属性进行量化的过程。测量有三个要素,分别为量化的过程、需测量的特征及其法则与程序。无论是何种形式的测量都需要有结果,这样的结果以数字的形式呈现。比如,若我们测量某人的身高和体重,其结果需以具体的数字显示,如某人的身高是1.79米,体重是72公斤。对学习者的语言能力进行测量也是同样的道理,只不过用的是不同的度量。例如,我们可以把学生的成绩转化为一系列等级,如雅思的成绩分为0-9这10个等级分;或者用名称类的标签表示,如优秀、良好、通过和不及格。当然测量的结果也可以是等距的数字,如托福iBT的总成绩可以是0-120分之间的任何一个数字。对于任何形式的测量,都需要明确知道测量的事物是什么。有些特征是具体的事物,如长度、重量、面积等属性;另一些是抽象的、构想的属性,如学生的英语词汇知识。应该用什么样的方式测量我们需要了解的事物的特征呢?这需要有严谨的、固定的程序来实现目标。如果我们想知道某人的身高,仅通过目测,就说“我看他应该有1.8米”,这不是测量。我们用卷尺对其身高进行准确的测量之后,发现其身高实际为1.79米,才知道之前的估计并不完全准确。同样,对于英语学习者的词汇水平也是如此。我们可以通过与某人进行简单的对话,推测此人的词汇量大概有5000个,但是这种判断在多大程度上是准确的,就只能通过具体的测量手段来检测了。
测试是测量的一种形式,但并不是全部的测量都可以称为测试。此处所指的测试是心理学或教育学领域所提的测试,指的是一类特定的测量手段和程序,可以提取受试者某些行为的样本,从而对他们具有的某些特征的情况进行推断。例如,雅思口语考试有一套严谨的流程,每场考试由一位受过专业训练的考官与一位考生对话,每一个口语任务的内容及其考试时长都是基本固定的。在此过程中,考生的口语表现被录音。考试的评分标准分为四项,分别是流利度和连贯性(fluency and coherence)、语法广度和准确性(grammatical range and accuracy)、词汇知识(lexical resource)和语音(pronunciation)。这四项每一项均有十个不同等级的语言表现的具体描述,可供评分时参考,最后口语考试的总分由这几项的平均分而求得。事实上,没有任何考试能够直接衡量考生的某种语言能力,由于现实条件的限制,只能在一定条件下通过一定的程序获得一定量的语言行为样本,并根据所获取的信息对考试测量的考生语言能力水平进行尽可能准确的推测。没有哪种考试是完美的,但测试开发者依然可以设计出可靠的、有意义的、实用的语言测试。(www.xing528.com)
评估指的是在搜集数据的基础上对被测试者的表现做出判断,并对其结果做出决定的过程。评估是测试在搜集、统计数据后可能会涉及的一个环节,如教师根据学生测验的情况,对他们某一段时间学习英语的情况进行判断,并做出对教学内容进行调整的决定。但评估和测试是两个独立的概念,有些测试仅仅是为了对考生的语言能力进行描述,并不涉及评估;而另有些评估并非建立在测试的基础上,如招聘单位根据个人简历、推荐信等内容对应聘者进行筛选。
评价指系统地、有依据地搜集信息的过程,以便对其结果进行评估。在很多情况下,“评价”和“测试”是通用的,但是“评价”使用的范围比“测试”更广。因为“测试”更加倾向于用来描述大规模标准化的考试,而“评价”则可用于表述各种不同层次、规模的测评,亦包括各种不同搜集数据的方法(Davis等,2002;Richards & Schmidt,2010)。由于在本章介绍的词汇测试方法大都设计严谨、用途较广,且不局限于某一种具体的使用环境,因此,尽可能使用“测试”这个概念。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。