首页 理论教育 教育评价方法:课堂教学评价修养

教育评价方法:课堂教学评价修养

时间:2023-10-23 理论教育 版权反馈
【摘要】:教育评价再评价应是按照一定的指导原则或标准,对评价工作自身质量做出评判。换言之,评价效度要求评价结果应当符合评价目的。最常用的做法是由评价者先提出命题的双向细目表,并编制相应的试题。总之,实践是检验真理的惟一标准,有效的评价应当正确地揭示被评价者的实际,并作出相应

教育评价方法:课堂教学评价修养

教育评价再评价应是按照一定的指导原则或标准,对评价工作自身质量做出评判。在实践中,对标准达成程度的判断大多采用定性的方法。

例如,美国学者沃森(1974)曾以概括性问题的方式总结了良好评价所应当具备的11条特性,并建议用这些特性来判断评价质量。

第一、概念明确——评价应能明确阐述评价的中心问题、目的、作用和一般方法。

第二、突出被评价对象的特性——评价应全面、详尽地描述被评价对象的特性。

第三、确认并表达合法评价报告接受者的观点——所有合法的评价报告接受者应具有发言权并有机会审查评价结果。

第四、对评价中涉及的政治性问题具有敏感性——评价应能满意地处理好产生分歧的政治,人际和伦理问题。

第五、详细说明信息需求和来源——评价应当详细说明所需信息及其来源。

第六、全面性——评价应收集所有重要变量和问题的信息,但无相互矛盾的数据。

第七、技术的充分性——评价的设计、程序和所产生的信息应当满足效度、信度客观性科学准则

第八、成本考虑——评价应考虑到成本因素。

第九、明确的标准——评价应明确列出并讨论判断被评价对象的标准。

第十、判断或者建议——评价除了报告结果外,还应当提供判断和建议。

第十一、面向评价报告接受者的报告——评价应适时地向已确认的评价报告接受提供形式适当的评价信息。

除了利用概括性问题对评价质量进行定性判断外,对其中的某些质量指标还可以进行定量判断。

一、效度鉴定

评价效度是判断评价质量的重要技术指标之一。它是指评价结果的有效性或准确性,即评价对其所要评判的特性准确评价的程度。换言之,评价效度要求评价结果应当符合评价目的。如果一个评价效度很低。其实际效果必然不佳,因此,再评价者必须十分重视对评价效度进行鉴定。

(一)评价指标体系的效度鉴定方法

评价指标体系(及工具)的有效性主要表现在两个方面:能够充分覆盖所要评价的内容,能够准确地提供被评价对象特性的信息;评价结果能够反映制定指标体系时的理论构想。前者是指指标体系的内容效度,后者是指指标体系的结构效度。

内容效度鉴定一般采用逻辑分析方法。人们通常采用专家判断的方式来确定评价指标的内容效度。如对学生学业成就进行评价时,评价者一般都以学科测验作为评价指标。学科测验是否能真正体现大纲所规定的培养目标,需要进行效度检验。最常用的做法是由评价者先提出命题的双向细目表,并编制相应的试题。然后,请若干学科专家(作为再评价者)根据试卷,判断各道试题所实际测量的学科内容及认知水平,列出评判的双向细目表。把两张双向细目表进行对照,两者的一致性程度越高,评价效度也就越高。

通过专家判断确定指标或工具的内容效度,是最常用的方法,而且简便易行。其优点是可在评价实施前进行,根据判断结论及时进行修订,使评价指标或工具具有较高的内容效度。其缺点是容易受专家主观经验的影响,且缺乏可靠的数量指标,妨碍了各种指标或工具之间的相互比较。

指标或工具的结构效度分析一般采用因素分析的方法。因素分析是一种常用的多元统计分析方法,其主要用途是从众多变量的交互相关中找出起决定作用的少数几个基本因素。下面以华东师范大学学能测验课题组编制我国高中生学能测验为例,对结构效度分析的过程作简要的阐述:首先提出学能测验的能力理论构想框架,如把语言能力分为系统化知识,接受、理解能力,处理信息能力和表达能力四种子能力,每种子能力又细分为若干测量要素,然后根据预定的能力结构框架编制试题,经抽样(样本学生为上海市235名高三在校生)实测后,对测量结果进行因素分析。具体过程如下所示。

1.计算代表各测量要素的试题(组)得分之间的相关,求出各测量要素的相关矩阵

2.用特征值法计算初始因素负荷矩阵,并进行方差极大正交旋转(保留全部因素),得到方差极大正交旋转因素负荷矩阵。(见表10—1)

表10-1 学能测验语言分测验的因素负荷矩阵表(N=235)

注:带*的数据表明可归入该因素

从表10—1可见,因素1即表达能力。因素2由系统化知识及接受、理解能力中除整体把握主题或逻辑关系测量要素之外的要素构成。因素3由处理信息能力中的选择与中心相关的句子、选定句群的结构排序两个测量要素构成。因素4由处理信息能力中的类比、审改句子、审改段落三个测量要素以接受、理解能力中整体把握主题或逻辑关系这一测量要素。

公共因素方差的累计贡献率为51.2%,表明这四个因素可解释测验方差的程度。其中表达和接受、理解两种能力的贡献较大,表明语言能力中表达和阅读理解居于重要地位。

综上所述,对实测数据的因素分析基本上验证了预定的语言学能的结构设计。不同之处是:系统化知识与接受、理解能力合并为一个因素,而处理信息能力则分解为两个因素。因此,因素分析能验证或深化人们对指标体系或工具结构效度的认识。

(二)评价结论的效度鉴定方法

评价结论的效度检验既可以采用定性方法,也可以采用定量方法。两者都属于效标关联效度,即根据效标来判断评价结论的有效性。

1.最常用的定性方法是三角互证法,即用不同来源的定性材料来证实同一结论。

例如在评价教师时,不少学校采用教师自我评价、同事评价、领导评价相结合的方式,有些学校还参照学生评价的意见。这些针对特定教师的、不同来源的评价信息之间的一致程度越高,评价结论的效度就越高。同样,也可以通过不同收集信息的方法(如查阅学校档案、与教师面谈、观察学生)进行效度互证,寻找信息的会聚点,来评价资料(或结论)的真实性。

2.在评价结论采用定量方式时,则可用相关法计算评价结论的效标关联效度。

计算相关的具体方法应当依评价结论及效标的量化水平而定,可采用积差相关法等方法。一般说来,效标关联效度随意的相关系数越高,评价结论的有效性也越高。

上述两种效度鉴定是相互联系的。一方面,评价指标和工具的有效性是评价结论有效性的基本前提;另一方面,前者又是为后者服务的。因此,从根本上看,判断评价的有效性要以考评结果和被评价者实际表现的一致性为最终依据。这不仅是因为评价结论对被评价者具有重要的影响,而且还由于评价结论的有效性应当具有坚实的实证基础。

总之,实践是检验真理的惟一标准,有效的评价应当正确地揭示被评价者的实际,并作出相应的价值判断。

(三)影响评价效度的因素

实践表明,对评价效度产生较大影响的因素包括:

1.评价指标和工具的科学性(www.xing528.com)

评价指标体系的科学、合理、针对性,评价工具充分体现评价指标的核心内容、收集到所需的信息,是有效评价的基本前提。为此,评价指标和工具在正式使用前,须进行多次试用和修订。

2.评价实施的质量

评价实施的质量包括评价是否严格按照预定的程序进行,是否选择了适当的时间和场合进行,是否排除了各种人为因素(或偏差)的影响和干扰等方面。要科学、规范、客观地实施评价,再评价的组织者应采取有效的培训和监控措施,提高评价者的自身素质,鼓励被评价者积极参与。

3.效标特征

选择适当的效标是保证评价效度的关键因素。再评价者应当十分慎重地选择效标,效标应当可靠,而且要尽量避免出现效标污染情况,即效标包含了与评价目的无关或关系不大的内容。

4.被评价者的特性和样本的代表性

被评价者的兴趣、动机、情绪、态度和身体状况,对评价项目的反应性等对效度也有重要影响,应当予以充分的重视。在进行抽样评价时,还应当注意样本的代表性,这样有助于提高评价的效度。

二、信度鉴定

评价信度也是判断评价质量的重要技术指标之一。它是指评价指标(或工具、结果)的可靠性、一致性和稳定性程度。评价如果信度很低,其结果就缺乏可靠性。因此,再评价者必须十分重视对评价信度进行鉴定。

(一)评价信度鉴定的方法

1.评价指标的信度鉴定方法

评价指标的信度鉴定方法主要采用内在一致性信度。一般说来,同组各分指标的内在一致性程度越高,该组指标的信度也就越高。对指标体系而言,由于各个一级指标大多是异质的,如第一个一级指标与办学条件有关、第二个一级指标与办学过程有关、第三个一级指标与办学成果有关,此时应当用复本法或再测法来估计指标体系的信度。

2.评价工具的信度鉴定方法

评价工具的信度鉴定也主要考查工具的内在一致性信度、稳定性信度和等值信度。

3.评分者的信度鉴定方法

在教育评价中,评价者对被评价对象评判的稳定和可靠程度,对整个评价的可靠性具有重要影响。研究表明,不同评价者在评价同一对象时,评价结论会产生重大的差异。

北京师范大学课题组曾对高考的评分误差进行过研究。他们从北京市随机抽取了语文、政治、数学物理四科各五份试卷,复印后分发给全国二十八个省、市、自治区的高考阅卷组评阅。同时又请某省高考阅卷组从九门考试科目中各随机抽取五份试卷,复印后由同一科目的各阅卷组分头评阅。结果如下:就全国而言,各地对五份试卷评分的最大差异为:语文19~32分;政治12~19分;数学8~15分;物理6~13分。就一省而言,不同阅卷组对同一份试卷评分的最大差异为:语文23分;政治7分;数学11分;物理2分;化学7分;生物10.4分;地理4分;历史6.7分;英语1.5分。

这些评分误差都是在采用相同评分标准的情况下出现的。一般来说,学生学科成绩因评判标准较为明确,还相对容易评定。如对较抽象的行为特征,如进取性、合作精神等进行判断,标准就更难把握,误差更难避免。因此,在一个以上的评价者进行评判时,应当分析评价者的评分信度,对评分误差做出估计。如果评价分误差过大,很难得出综合结论。

(二)信度的数值范围

由于信度是用相关系数来表示的,其数值范围为0.0~1.0,通常是一个小数。信度系数越接近1,表明评价信度越高。

国外学者对众多标准化测验的信度进行研究后,发现学业成就考试、能力测验的信度较高,一般可达到0.9以上,而兴趣、性格、态度等人格测验的信度稍低些,大多为0.80~0.85之间。评价认知发展的指标或工具可靠性较高的原因可归结为认知水平相对稳定、容易外显、被评价对象乐于合作、编制技术成熟完善等,而人格测验所测量的特性更加复杂、不太稳定、在一些敏感问题上,被评价对象不愿暴露其真实想法、测量技术不够完善等因素导致了信度较低。他们建议,当评价工具的信度系数≥0.85时,进行个人比较较为适当,而信度系数≥0.70时,适宜进行团体比较。

尽管全面评价学生、教师或学校,要比进行单项评价更加复杂,面临的困难更多,但上述这些经验性的结论,是可供我们参考的。

(三)影响信度的因素

从总体看,被评价者与评价者状态、评价工具(指标)、评价过程与评分等因素均能引起随机误差,导致评价结论不一致,降低评价信度。了解影响信度的主要因素可帮助评价者采取相应的措施,提高评价的可靠性,并对评价信度做出合理的解释。影响评价信度的因素可简要归纳如下:

1.被评价对象的情况

就被评价者情况来说,被评价对象团体的异质性越大,分数分布范围越大,信度系数就越高。此外,信度还受被评价对象团体平均水平的影响。对于不同水平的团体,相同的评价项目会具有不同的难度,项目难度的变化累积起来便会影响信度。

2.评价指标和评价工具

一般来说,随着评价指标或工具项目的增多,信度值也会有所提高。首先,项目的增加提高了取样的代表性,有助于反映被评价对象的真实水平,从而提高了评价信度。其次,项目增加后,每个项目的随机误差可相互抵消。需要指出的是项目的增加与信度的提高遵守报酬递减规律,当项目达到一定数量后,再增加许多项目,对信度提高的作用微乎其微。

在学业评价中,测验的难度对其信度也会产生间接的影响,当试题过易时,会导致学生得分的范围缩小,从而降低信度;当试题过难时,学生可能凭猜测作答,也同样会降低信度。而难度适中的试题,有利于扩大分数的分布范围,考核出各种层次学生的实际水平。

3.实施评价过程中各种因素

在评价实施过程中,也会出现一些导致误差出现的因素。如评价环境与氛围;评价者的素质、评价者和被评价对象的关系;被评价对象的动机、态度、情绪、身体状况;意外的干扰等。评价者应当注意创设良好的评价环境,对可能产生评价误差的各个环节要密切监控,出现问题,及时纠正。

4.评分误差

减少评分误差是提高评价信度的有效措施。减少评价误差,首先要提高评价人员的自身素质,包括高度责任感、敬业精神、理论与技术素养等;在多人进行判断时,要加强对评判者进行充分的培训,学习、领会和把握好基准,严格按照统一的基准进行评分;同时采取有效的监控措施,如相互核查、抽样检查等。努力消除评分中主观随意性或因疏忽而引起的登录、加总的误差,为评价提供可靠的信息。

三、信度和效度的关系

信度和效度具有密切的关系。从理论上讲,提高信度是提高效度的必要条件,效度受到信度的制约,但信度是效度的必要条件而非充分条件,信度高并不一定保证效度高。

一次评价如果具有很高的效度和信度,这是十分理想的。但由于教育评价对象的特性十分复杂,在实践中,提高评价效度和保证其信度有时会发生一些冲突,两者不容易兼顾。我们认为,在评价效度和信度发生冲突时,首先应当保证评价效度,在此基础上再努力提高评价信度。

近年来,教育部有关部门为了提高各地的中考(初中升高中的考试)的质量,已开始进行试验性研究,并准备在试点的基础上逐步推广。例如,教育部要求各地在语文中考中增加了非客观题的比重,以便更有效地考核学生的阅读理解和书面表达能力,即提高中考的效度。但非客观题的增加,会导致评分误差的增大。因此,必须采取相应的措施加强对评分误差的控制。教育部在《关于中考语文考试改革试点工作的指导意见》中,要求各地最大限度地减少作文的评分误差,同一篇作文,要有三人以上独立评阅,同时要加强对阅卷过程的监控和阅卷质量的监督。可见,教育部关于提高中考质量的措施是十分科学的、正确的。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈