当英语教师、测试开发人员以及科研工作者出于一定的目的,需要了解学习者某些方面词汇知识的掌握情况时,就会涉及对词汇测试的设计或选择。在这个过程中,一般来讲我们需要先明确考试的目的,并在此基础上描述测试要测量的具体目标;接下来要选择合适的词汇作为测试的内容,并设计编写试题;最后还要对考试结果进行评分和统计,并以此为依据对考试所测的学习者的词汇水平进行推断。另外,如有必要,还需要从测试的各个环节中搜集相关证据,检验该考试在多大程度上实现了其测量的目的。如何才能使以上所提到的有关词汇测试开发与使用的各个环节科学严谨?这其中有哪些规律需要遵循?有什么原则和方法需要把握?这正是词汇测试研究致力于探索的一系列问题。在本节中,我们将介绍有关词汇测试的一些重要概念和框架,这些知识对于各种不同词汇测试的使用具有普遍的参考价值。
(一)词汇测试的三个维度
我们不难发现,具体的词汇测试形式多样。其测量的能力有何特点?以何种方式测量?能否反映词汇测试的某些普遍规律或原则?针对这些问题,Read(2000)对研发词汇测试时需要重点考虑并做出选择的几个因素进行了探索,提出了词汇测试的三个维度。笔者将Read(2000: 9)的三个维度进行了总结(如图7-1所示)。每一个维度都可以看作是基于一对意义相对的概念的连续体,在设计测试时需要根据具体需要,确定词汇考试在此维度中所处的“位置”,即这一方面属性的具体特征。每种词汇测试都要考虑这三个维度,在不同维度之内的选择彼此既相互独立,又有一定的联系。
图7-1 词汇测试的三个维度(改编自Read,2000: 9)
第一个维度是针对词汇测试构念(construct)设计的形式而言的,包括“分离的(discrete)”和“嵌入的(embedded)”这两个概念。当我们决定要设计某种测试时,需要考虑的第一件事永远应该是:这种考试应该测量的究竟是什么内容?我们需要具体描述测试所测的考生的心理特征。对于语言测试来说,这样的心理特征可以体现为考生的某方面的语言能力,也可以体现为考生应有能力完成的具体的任务,这就是考试的测量目标,也被称为构念。构念在考试设计中是至关重要的,对测试输入素材的选取和对任务的设计都要参考构念的内容。在词汇测试中,构念的形式可以根据考试不同的需要或根据测试开发者对词汇能力不同的理解,呈现两种截然不同的风格。如果词汇测试的构念是分离的,说明测试开发人员认为词汇知识是语言学习者一项独立的能力或知识储备,可以将其从其他语言技能中分离,并进行单独的测试。比如,由Nation(1990)设计的词汇水平测试(详见本章第五节的第一部分)的构念就属于“分离的”形式,因为此测试仅测量考生对以使用频率划分的五个不同级别的词汇的掌握情况。与此相反,“嵌入的”词汇测试构念认为,应该从在语言中对词汇的运用情况来评价考生的词汇能力。词汇能力是语言使用中不可分割的一项能力,因此,词汇知识应该是更加宏观的语言能力中的一部分。作为其他语言技能的构念的一部分,在测评的时候应该通过考生在其他技能或任务中的表现对其词汇能力做出评判。例如,我们可以设计一个写作考试,并将评分标准分为几个不同的项目,如词汇知识、语法准确度、连贯和衔接等方面的内容,并为每个方面都设置几个级别的评分标准。这个考试在测量写作能力的同时也测量了词汇知识的运用能力,后者是前者的一部分。
第二个维度是针对所测词汇的选择而言的,可分为“选择性的(selective)”和“综合的(comprehensive)”两种形式。如果词汇测试的词汇是“选择性的”,这就意味着测试设计者根据某些原则,从词汇表、词典、语料库或文章中筛选了一些词汇,作为测试测量的对象。例如,词汇知识量表就是这样一种测试,它会选择一些独立的词汇项目,并测量考生对它们的理解与运用的深度。如果词汇测试所测的词汇是“综合的”,则意味着所测的词汇包括一定语篇中全部的实词。例如,如果我们要对考生的口语考试表现中的词汇知识丰富程度和运用准确性进行判断,我们考虑的是所用词汇的种类、频率和搭配等总体情况,这是一种整体的评判,并不会选择单独的词进行考虑。
第三个维度是针对任务设计时的考虑,其所关注的问题是语境在词汇测试任务中起到什么样的作用。换言之,我们可以把语境因素看成一个变量,词汇测试的任务可以有各种不同的形式,包括从完全没有语境因素的词汇测试,到完全依赖语境的词汇测试。虽然概念的区分比较模糊,但大体上还是可以把词汇测试的任务分为两类:一类独立于语境(contextindependent),另一类依赖于语境(context-dependent)。独立于语境的词汇测试仅对词汇的形式或意义的正确理解进行测量,如这样的测试项目:
Which of the following words has the closest meaning to "decisive"?
A. brilliant
B. critical
C. satisfactory(www.xing528.com)
D. prime
对一些写作或口语考试中词汇知识的评价,就属于依赖于语境的词汇测试任务,因为评分员需要从考生提供的语篇中的词汇使用情况,来判断他们的词汇知识水平。另外一些题型介于两者之间,在一定程度上依赖于语境,一个典型的例子就是完形填空中有选项的词汇测试题:一方面,考生需要根据语境推断所缺词汇的意思;另一方面,该题各选项的内容可能会为该词的含义提供一些提示。一般来讲,如果一种词汇测试的任务选择倾向于独立于语境的方式,在词汇选择维度上也会倾向于“选择性的”方式,反之亦然。这是因为独立地选择一些词汇进行测试,会使得设计题目的方式更加倾向于专门设计一些针对这些词汇的任务,而以“综合的”方式选择词汇是基于语言运用的,必然涉及语境。因此,在任务设计中语境起到了非常重要的作用。
(二)词汇测试的信度
在词汇测试结束之后,我们需要对其成绩进行统计分析,对考试所测的考生的词汇知识掌握情况进行了解。我们也需要对测试测量的质量进行检验,即测试所得到的分数是否稳定可靠。这不仅是词汇测试的一个环节,也是语言测试中的一个必不可少的环节。这个概念指考试的信度(reliability)。
信度对于考试来说指的是其成绩的稳定性,而事实上,考试作为一种测量方法,其结果是不可能完全稳定一致的,我们只能尽量保证考试具有较高的信度,毕竟没有任何一种测量手段能够完全测量准确。有什么因素可能会影响测试结果的稳定性呢?总体来讲可能有四个方面的因素:考生的语言能力、测试任务的特征、考生的个人属性和随机因素。考生的语言能力是相对稳定的一个因素,包括考生各方面的语言知识,变化相对较为缓慢,如词汇知识,是随着日积月累而逐渐增加的。测试任务的特征在考试中也是不变的,它是使考生的语言能力转化为测试表现的手段,但题目设计的质量会影响到测试分数的稳定性。考生的个人特征包括认知风格、性别、年龄、种族等属性,这些虽然是稳定因素,但在设计测试的时候,需要认真确保所使用的试题不受这些因素的影响,以免造成考试成绩的偏差,毕竟这些因素并不是考试意图测量的特征。最后,在考试的过程中还有一些不可控的因素,如考生在考试过程中的心理状况、考试环境中的噪音等,这些因素往往是在考试设计中很难预测的。
测试的信度可以分为两个方面,分别为考试试题内部的一致性和相关测试之间成绩的一致性。对于考试内部一致性的计算,客观题和主观题面临的情况和问题不尽相同。对于客观题的信度计算,虽然有一系列方法(参见Bachman,1990,2004),但是当今效果最好、应用最广泛的统计方法之一是克朗巴哈系数法(Cronbach's alpha,亦称coefficient alpha)。此方法普遍适用于各种数据的内部一致性计算,只需输入每位考生对每一道试题的作答评分,就可以通过此方法计算出考试的信度系数,其数值在0-1之间。一般来讲,若alpha值大于0.8,说明考试具有良好的信度。主观题需要由评分员根据评分标准进行评分。评分员评分的一致性包括两种情况,一种是评分员内部信度(intra-rater reliability),另一种是评分员间信度(inter-rater reliability)。如果遇到的情况是评分员个人根据某一评分标准,为某主观题的多个作答进行评分,其评分的稳定性会受到一定因素的影响。比如,评分员对评分标准的理解、评分员的精力状况、评分的顺序等。因此,需计算评分员内部信度。在此,我们可以在评分员评分之后,把考生的顺序打乱,让他们再重新完成一遍评分,然后计算两组数据之间的相关系数或克朗巴哈系数。对于评分员间信度,计算方法类似。如果计算两位评分员之间评分的信度系数,可以统计两人评分的相关系数;如果人数超过三人以上,一般采用克朗巴哈系数法进行计算。相关测试间的一致性是信度的另外一个方面的含义,它指的是当测试反复地在不同的情况下测量条件相似的考生时,其成绩应该趋于一致,这也被称为测试的稳定性或重复测量信度(test-retest reliability)。其计算方法并不复杂,只要统计两组测试的相关系数即可,但是在此过程中,有两个潜在的因素会造成相关系数高于预期。一是第二次考试时考生已经对考试的形式和内容有了一定程度的了解,因此,成绩容易提高;二是过了一段时间再考,考生的语言能力已经有了变化。因此,需要注意的是,用这种方法检验测试的信度存在一定程度的不可避免的误差。
至此,上述所提到的信度计算都是基于测试成绩本身的统计方法,而并没有考虑考生的语言能力维度对测试任务正确率的影响。项目反应理论(item response theory)突破了传统的信度分析思路,在对具体测试项目的分析中考虑到了考生的语言能力、任务难度和客观题中随机猜测等因素。其中,罗殊模型(Rasch model)是项目反映理论中一个简化了的数学模型,它建立在把区分度(discrimination)设为常数并忽略随机猜测因素的基础上,在分析词汇测试项目中应用比较广泛。有关这类统计方法更详细的描述,建议参考Bachman (1990, 2004)或相关的统计学著作。
(三)词汇测试的效度
有关测试的另一个重要概念是效度(validity),指的是考试在多大程度上实际测量了它预期测量的内容。比如,我们想要测量学生对学术英语词汇的使用能力,于是我们从学术英语词汇表中选取了一定数量的单词,设计了一个词汇考试,全部由完成句子单选题组成。当考试的结果出来后,我们对试题的难度、信度、区分度等数据进行了统计,发现这些数值几乎都处于正常的范围之内。那么,这些数据是否足够说明该考试具有良好的效度?事实上,完成句子单选题只能测量考生识别、理解和辨析词汇的能力,这仅仅是词汇使用能力的一个必要条件。换言之,如果考生能够做对该考试的题目,仅能说明所考的词汇是考生的接受性词汇,但对于他们能否在口语和写作中运用这些词汇,是无法通过这样的客观题得出结论的。此外,由于选择题有一定随机猜测的概率,所以即使做对了,我们也不能完全确定考生真正认识所考的词汇。综上所述,这个由单选题组成的词汇测试只是在一定程度上达到了它测量的目的,该考试的设计还有待改进。
检验一种考试的效度需要全面地考虑考试设计、考试结果及其相关的决策与影响等方面的因素。根据传统的效度分类观,效度可分为内容效度(content validity)、构念效度(construct validity)和标准关联效度(criterion-related validity)等方面。内容效度关注的问题是考试的内容对于考试所测量的语言知识和技能,有多大程度的代表性。具体来讲,我们需要考查考试的任务特征对于在真实场景中的语言任务的代表性,即测试的真实性,以及所考的内容是否充分地涵盖了考试意图测量的语言能力。另外,通过考试的结果对其性能进行的数据统计也是内容效度的一部分内容。构念效度指的是测试的试题在多大程度上反映了考试构念,即所测量的语言能力。构念效度把测试的结果与考试构念的框架联系起来,希望了解通过考试的结果可以在多大程度上反映出其意图测量的能力。我们需要通过测试的结果,对考试所测的考生的语言能力程度进行推断,这样的推断建立在什么样的基础之上,有多合理,指的就是构念效度的内容。标准关联效度通过测量相同构念的不同考试之间的关联,来衡量测试的效度。比如,我们设计了一种考试,用来测量学生的英语阅读水平。对于考试结果,我们想知道该考试是否能够准确地区分考生的阅读能力,因此,我们选择学生的托福iBT阅读成绩与其进行参照(假设学生都参加过该考试),并计算两组成绩之间的相关系数。相关系数越高,说明该考试的标准关联效度越好。标准关联效度可应用于两种不同的情况,第一种是两种考试几乎在同一时间进行,被称为共时效度(concurrent validity);第二种是两种考试一前一后在不同的时间进行,可用来衡量学生在一定时间内语言学习的成就,被称为预测效度(predictive validity)。
为测试搜集证据,以支持测试的结果,可以反映考试对考生相应语言能力的推断过程,这叫做效度验证(validation)。在词汇测试领域中有很多关于效度验证的研究,这里举两个有趣的例子。第一个是Walters(2012)的研究,对一个产出性词汇测试进行效度验证,叫做Lex30。该研究通过把该考试的成绩与另外两个考试的成绩进行比较,衡量了Lex30的共时效度。一方面,对于其构念效度,该研究把考生根据不同的英语水平进行分组,并检验该测试对不同水平考生的区分能力;另一方面,检验该测试实际测量的能力是词汇知识的使用,还是对词汇的回忆。此研究的结果对Lex30的信度和效度进行了肯定,但是对于考试实际测量的是词汇知识的运用还是词汇的回忆,因不同水平的考生而异,这是测试效度方面的一个局限。另一个是Stewart(2014)的研究,检验了Nation和Beglar(2007)的词汇量测试内容效度的一个方面。该研究对词汇量测试的一个题型——单选题进行了效度验证。结果发现,该题型实际上高估了学生的词汇量,主要是因为选择题中有猜测的成分,实际上学习者能够在阅读中识别的单词并没有测试估计的那么多。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。