学术文章的效度和信度解读：科研入门笔记

时间：2026-01-25 理论教育南栀版权反馈

【摘要】：比如，上面最后一个例子，想研究“蔬菜销量与经济健康指标关系”却只测量了菠菜销量的，这就没有涵盖“蔬菜”这个概念的全部维度，缺乏内容效度。比如，使用大学生的GRE分数来测量他们的学习能力，这是不是一种有效度的测量呢?这些在学术研究中都已经被区分对待，并且有了较为公认的测量索引。与“效度”经常一起讨论的另一个概念是“信度”，一个好的研究测量必须既有效度又有信度。

最近在一门课上聊到政府部门招聘的问题，好几个学生同时抱怨说自己参加过的好多次面试所提的问题都跟该工作岗位一点关系都没有。比如，工作岗位是图书馆管理员，笔试一轮中全是宽泛的性格测试;工作岗位是政策分析咨询师，面试完全没有问到受试者研究经验或者测试分析能力，而是进行了一个小时漫无边际的闲谈;等等。

生活中如果遇到这种情况，我们会很容易察觉到哪里出了问题——比如，想招后勤管理人员你却一直调查人家有没有科研经历，想招公司文职人员却全是跑步、举重之类的体力测试，想招专职司机却全篇测试写作能力。虽然俗语说不想当将军的厨子不是好司机，但这么不着边际的遴选测试考察的是跨界能力而不是做好某个本职工作的能力，古语所谓“缘木求鱼”是也。谁遇上这样的面试过程都会觉得是“深井冰”。

然而在设计研究时候也经常有这种“缘木求鱼”的问题，俗称“研究者中的‘深井冰’”。

·比如，你想调查“流行音乐对人情绪的影响”，问卷中却一直在问受试者对古典音乐的看法。

·比如，你的研究问题是“如何提升政府部门绩效”，却在与政府部门领导的访谈中问人家海外考察的经历。

·比如，你想了解“家花和野花对生长环境的不同需求”，却被家花和野花的外观吸引，只观察了叶子和花瓣的区别而不是他们的生长环境。

·再比如，你想调查“蔬菜销量与经济健康指标的关系”，却只研究了菠菜这一种蔬菜与经济指标的关系。

以上种种，都可以归纳为在研究测量中缺乏效度的问题。社会研究的设计中，效度不足可是个大问题。

那么何为一个测量的效度呢?简单来说，就是“你所检验的是不是你想要检验的”“你瞄准的靶子是不是你该射击的靶子”“你正在行驶的方向是不是你要去的地方”。效度侧重体现一个测量当中的“准确测量性”(accurate assessment)。

怎么才知道一个研究的测量是否具有较高的效度呢?

首要的标准是看其研究测量(measurement)是否符合和适用于其要去检验的、提出的研究问题和研究目的。研究的目的应该是我们设计整个研究的统领和导向，偏离了目标的测量就是缺乏效度的测量。上面几个例子皆是偏离了其本来研究问题才出现了问题。比如，要去北京海淀区，结果一路小跑去了顺义区;想发射火箭去火星，小风一吹刮去了木星。

这样说来，同样一个访谈问题问出来，对于某个研究可能是个极好的问题，对于另外一个研究可能就是个极差的问题——因为两个研究的目的如果不同、要去的地方不一样，那么所谓“好问题”的标准当然也就不一样——“彼之蜜糖，吾之砒霜”。

要想知道一个研究是不是缺乏效度，我们具体可以看以下几个方面:

·表面效度(face validity):这个是最基本的一种效度，研究者问的问题从表面上来看跟他的研究目的是否相关呢?比如，想买萝卜的人会到处问黄瓜的价格吗?想说“喜欢你”的人说出口的是“今晚的月亮真圆啊”，缺乏表面效度。

·内容效度(content validity):一个标准定义是“The degree to which a measure covers the range of meanings included within a concept”——你要检验的概念被完整涵盖了吗?比如，上面最后一个例子，想研究“蔬菜销量与经济健康指标关系”却只测量了菠菜销量的，这就没有涵盖“蔬菜”这个概念的全部维度，缺乏内容效度。(https://www.xing528.com)

·效标关联效度(criterion-related validity):“The degree to which a measure relates to some external criterion”——你要检验的标准试用程度合适吗?比如，使用大学生的GRE分数来测量他们的学习能力，这是不是一种有效度的测量呢?GRE分数能够完美看出一个人的学习能力吗?再比如，要测量一个人对宗教的信仰程度，我使用这个人每周去参加宗教服务的次数，这又是不是有效度的测量呢?一个每天都会去寺庙的人一定会比一周去一次的人虔诚吗?

·结构效度(construct validity):访谈或者问卷的问题是否测的是你要研究的某个具体概念吗?还是其实测了另一个概念?社会科学中有很多概念是相当接近的，比如，你问的某个问题是测了一个人的自信度(confidence)，还是自我效能(self-efficacy)?你对某两个人之间彼此态度的问题测出来的是他们的信任度(trust)还是友谊(friendship)?这些在学术研究中都已经被区分对待，并且有了较为公认的测量索引。

与“效度”经常一起讨论的另一个概念是“信度”，一个好的研究测量必须既有效度又有信度。如果说效度关注的是你是不是能正中靶心，那么信度关注的则是你在多大程度上能总是保持比较恒定的设计水平——测量的稳定性和一致性(consistency)。

比如，假如你买了个新的电子秤来记录自己体重变化，买回家站在秤上一看——161斤，你心想我怎么可能这么轻，重新又站上去了一次——171斤，你火了，再站上去一看，又变成161斤，你心想这可奇怪了，再测一次吧，191斤……

如果你真买了这么一个秤，你肯定知道这秤有问题，因为你的体重不可能在几秒钟之内发生如此的变化，这个秤的问题就是没有信度——缺乏稳定性和一致性。

社会科学研究中的测量方法也同样需要稳定性和一致性。比如，你发明了一套测量智商的问题，共100个问题，交给一个小学班级里的50名学生测试他们的平均智商。第一次测量结果是平均75分;隔了一周，你又去同一个班级测试，这一次得出的结果是平均55分;隔了一周你又去测了一次，这次平均120分——如果假设其他因素都恒定不变，这三次数据差距如此之大的结果说明你设计的这套问题的信度非常低，你要是用它去测试别人的智商，得到的结果总是没个准，你说这样的测试谁敢用呢?

那你可能会问了，在社会科学里存在那种具有完美信度的测量吗?比如说，像一个正常的电子秤一样总是能几乎百分之百地给出稳定、一致结果的测量，这种东西在心理学、管理学或者社会学的测量中真的存在吗?

答案是，几乎不存在。比如测自信心高低，不同的学者可能会使用不同的问题去测量一个人的自信心，慢慢就会有一套大多数学者承认的测量指标。如果你研究的东西已经有了一套比较成熟的测量尺度，你就应该去使用或者至少要借鉴，而不是完全从零开创一套全新的测量方法。

既然不存在十全十美的信度测量，那么用什么指标衡量一个测量的信度是好是坏呢?最常用的指标是克朗巴哈系数(Cronbach's Alpha)，极差(range)在0和1之间的一个指标，越接近1越说明这个测量是信度高的，使用SPSS之类的软件都能很容易地算出来，其也要在论文里面汇报出来以供其他学者参考。

一个研究，可能具有较高的效度和较低的信度，也可能具有较高的信度和较低的效度，我们的目标是两者都照顾到，类比关系请见图2-20。

图2－20　效度和信度的对比

(图片来源于网络。)

保证测量中的信度和效度，我们才能保证自己数据所展示的结果准确而有意义。如果你还没思考过，那么现在就去检查一下自己研究中测量尺度的信度和效度吧。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

工作计划

年度工作

工作规划

教学计划

实施方案

工作方案

教学工作

发展计划

德育工作

管理工作

发展规划

工作总结

教育工作

体育教师

年度计划

后勤工作

安全教育

工作思路

教育计划

小学教师

幼儿教师

数学教师

食品安全

英语教学

学术文章的效度和信度解读：科研入门笔记

相关推荐

学术文章的效度和信度解读：科研入门笔记

相关文章：

相关推荐