首页 理论教育 教育科学研究方法:评估测验效度的三个角度

教育科学研究方法:评估测验效度的三个角度

时间:2023-11-02 理论教育 版权反馈
【摘要】:评价测验效度有三个角度,包括内容效度、结构效度、效标关联效度。如果这个假设得到了证实,即集训之后的成绩比之前的高,那么,这就为测验的结构效度提供了证据。在这里,被估计的行为是检验测验效度的标准,简称为效标。

教育科学研究方法:评估测验效度的三个角度

效度指的是一个测验的有效性,即一个测验在多大程度上能够测到它所要测量的心理特质。效度是衡量测验结果的有效性指标。评价测验效度有三个角度,包括内容效度、结构效度、效标关联效度。

(一)内容效度

内容效度(content related validity),又称内容关联效度,指的是测验内容对所要推论的评价范围内容的代表程度,即测验题目样本对于应测内容与行为领域的代表性程度。内容代表性高的测验要比代表性低的测验好。如果是教学情境下的成就测验,那么其内容效度就是看测验题目样本能体现教学目标与教材要求的程度。例如,教师让学生做一份英语测验,如果该测验的题目涵盖了英语教学所要达到的各项教学目标及教材的重要内容,那么我们便说该测验具有较高的内容效度。教学中,内容关联效度标志着当依据分数来推论学生在评价范围上的状态或水平时,其推论的可靠程度。

在考察测验题目样本的代表性时,首选要对应测内容与行为领域有明确的界定,有比较清楚的组织结构。内容效度主要适用于教育测量(尤其是学业成就这一类的测验)。在教育测量中,测验分数是依据测验内容及外在的客观标准来加以解释,所以内容效度最能反映出该测验是否可以测量出所要测量的特质内容。对于某些心理特质测验,因为测验所测的内容就是实际工作所需的知识和技能。

收集内容效度的证据有两种基本的方法。①逻辑分析法,由有关测验专家对测验题目与应测内容范围的吻合程度做出判断。考试的内容效度分析可以采用一种叫作“题目双向分类表”的分析,也就是依靠专家来分析一份试卷的所有题目,把所有题目按考试内容分布和考查目标分布进行双向分类,然后由专家对这次考试的内容效度的满意程度做出等级判断或描述。②量化分析方法。对内容效度进行量化的分析方法主要是改善逻辑分析方法没有用数量指标来描述内容效度的高低的缺点。该方法要求专家判断测验题目实际测到的内容与其欲测量的目标内容之间相关程度如何,可以采用四点量表来表示相关的程度大小。经量化后得出内容效度系数,数值越大表示内容效度越高。

(二)结构效度

结构效度,也有叫构念效度、构思效度,是指一个测量实际测到所要测量的理论结构和特质的程度,即测验的结果是否能证实或解释某一理论的假设、术语或构想,解释的程度如何。结构效度(construct related validity)最初用于对“焦虑”“固着倾向”等较为隐秘的心理结构的测量,所谓结构(construct)就是指心理学社会学上的一种理论构想或特质。它本身观察不到,并且也无法直接测量到,但学术理论假设它是存在的,以便能够来解释和预测个人或团体的行为表现。以“焦虑”这个概念为例,如果个体的焦虑水平能被测验准确地捕捉到,那么也就证明了这个假想概念是有其现实基础的、是合理的,而且这个测验较为准确地测量到了这个结构。结构效度验证一般包括四个步骤:第一,提出理论结构的说明,设计测量用的试题。第二,提出可以验证该理论结构是否存在的假设说明。第三,收集实际的资料,以验证提出假设的正确性。第四,收集辅助证据,淘汰与理论结构相反的试题,或者是修正理论,如此重复,直到提出的假设得到验证,测验的结构效度获得支持为止。否则,就表示该理论结构有问题或结构效度有问题,或两者都存在问题。

在教育测验中,结构效度证据的收集策略主要有三种:

1.干预法

干预法的基本假设是,在接受了某种形式的干预处理之后,学生在评价中的表现就会有所改变。比如,几位教师编了一套英语测验,他们认为这套测验能够测量学生的英语技能。在集中训练一段时间后,学生们的测验成绩会提高。如果这个假设得到了证实,即集训之后的成绩比之前的高,那么,这就为测验的结构效度提供了证据。(www.xing528.com)

2.不同群组法

我们可以假设在构想概念上表现不同的人群,其测验分数也应该有所不同。如果我们的这个假设得到了证实,那么就证明了测验的结构效度。

3.相关测验法

如果两个测验测量的是同一结构,其分数应该具有某种程度的相关。这个相关值越大,我们依据测验结果做的推论就越可靠。两个不同的测验间相关为正时,属于会聚效度的证据。相关值低时,就被称为区分效度的证据。测量不同结构的测验之间相关很低,这就说明两个测验可能都测到了预测结构。

(三)效标关联效度

效标关联效度(criterion-related validity)也称为实证效度,是指一个测验对于特定情境中的个体行为进行预测时的有效性程度。我们要判断这种预测的有效性就必须找一个测验之外的客观标准,比如用智力测验预测个体工作上的成效等,以及未来的学习成绩,这种检验测验效度的外在的、客观的标准,即效度的标准,简称效标。由于它以实践的效果来作为检验测验是否有效的标准,所以也称为实证效度。

在这里,被估计的行为是检验测验效度的标准,简称为效标。效标是衡量一个测验是否有效的外在标准,是独立于测验并可从实践中直接获得的我们所感兴趣的行为。

一般说来,效标测量要想较好地体现观念效标,那效标测量本身就必须是有效的和可靠的,而且还必须客观、实用。在心理与教育测量工作中,常用的效标主要有:学业成就、等级评定、临床诊断、专门的训练成绩、实际的工作表现、对团体的区分能力,以及其他现成的有效测验。这些效标可以是连续变量,也可以是离散型变量;可以是自然的现成指标,也可以是人为设计的指标;可以是主观判断,也可以是客观测量;可以是自我评定,也可以是他人评定;等等。

效标关联效度一般用以下方法进行估计:①相关法。相关法就是计算测验分数与效标测量的相关系数,可以使用积差相关、等级相关、点双列相关、二列相关、四分相关、列联相关法等。②区分法。该方法的思路是,被试接受测验后,让他们工作一段时间,再根据工作成绩(效标测量结果)分为两个极端组,然后检验这两组被试原来的测验分数是否具有统计学上的差异显著性。若这两组被试的测验分数差异显著,则说明该测验有较高的效度。③命中率。当测验用作取舍决策时,常使用命中率这一指标。这类测验的效度高不高,就是看其取舍是否与实际一致,也即命中率高低。命中率可分为总命中率、正命中率和负命中率三种。总命中率指根据测验选出的人当中工作合格的人数,以及根据测验淘汰的人当中工作不合格的人数之和与总人数之比。总命中率高,说明测验的效度高,能有效地区别合格与不合格者。正命中率指测验选出的人中合格者所占的比例,负命中率指测验淘汰的人中不合格者所占的比例。如果测验只关心被选者中合格者有多少,不关心被淘汰者中是否有合格者,验证这类测验效度就要用正命中率。如果测验关心的是尽可能将合格的人筛选出来,那么验证这类测验效度就用负命中率。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈