首页 理论教育 科学研究原理:确保统计效度与抽样效度

科学研究原理:确保统计效度与抽样效度

时间:2023-07-29 理论教育 版权反馈
【摘要】:这也是确保统计效度的一套科学实践准则之一。统计效度的另一方面是抽样效度。

科学研究原理:确保统计效度与抽样效度

正如我们在上面看到的,值和所测量数值只是数据——它们不等于它们代表的属性。当科学家在选择何种属性作自变量因变量时,或者在分析他们的发现时,他们需要考虑研究的属性怎样被测量,获得的值是什么样的数据。如果科学家所分析的是定距数据,“2+2=4”是非常合理的。如果科学家在分析定类数据,2加2不仅不是4,它甚至没有任何意义。

在研究过程中,科学家们需要考虑的问题之一是使用适合数据类型的分析方式。这些问题是一大套技术中的一个部分,它们确保研究结果是有效的。科学研究的效度是为科学问题找到优质答案的关键。下面我们探讨一些不同类型的效度。

3.2.1 结构效度和操作化

当我们谈论楼梯相对高度时,高度的意义在这个情境和这项研究中很清晰。这个研究中唯一需要澄清的就是,台阶的高度是相对于地板测量的。如果我们想衡量站在台阶上的15个人的相对快乐程度又会怎么样?我们应该如何进行呢?

在许多科学研究和实验中,特别在社会科学中,直接测量一个值是不可能的。那些情况下,科学家们使用更容易被测量的指标(markers)来描述属性。科学家们设计方法来衡量一个不能被直接测量的属性,便是将这个属性操作化(operationalization)。

我们怎么把快乐操作化?难过的人呼吸频率更快,因此科学家可以认为呼吸频率低意味着一个人很高兴。然而,呼吸频率低也可能意味着一个人不快乐。要是有人高兴得上蹿下跳会怎样?他们的呼吸频率会很高。如果我们使用呼吸频率低来衡量快乐,我们可能得不到有效的结果。更好的解决方案可以是让人们在1到10的刻度上选择他们的快乐程度,或者我们可以测试他们的唾液皮质醇(一种压力荷尔蒙),或者我们可以让其他人评估那个人的快乐程度(这无疑是主观的数据)。

要得到优质的研究结果,适当的操作化是关键。科学家们使用许多不同方法来评估一个属性的操作化程度,包括比较使用不同指标体系所得出的结果,评估指标和操作化的变化对跟属性关联的其他东西的变化的预测效果,以及评估操作化和指标是否代表属性的所有方面(举个例子,如果你想操作化“勤奋度”,而你只询问学生上课的时长,这个操作化并没有考虑他们在课后作业或者课外活动上花的时间)。

如果属性的操作化做得不好,任何基于该操作化的研究都有可能是无效的。

3.2.2 表面效度

要是我们不通过测量台阶上的人在微笑时嘴角的宽度,而是看他们的尾巴摇得多快去衡量他们的快乐程度会怎么样?那种衡量方式马上就会产生问题:人没有尾巴。没有供测量的标记。我们不需要做进一步的研究设计测试,来决定摇尾巴是不适合衡量人类快乐程度的,我们看了就知道这个设计不行。

3.2.3 统计效度(www.xing528.com)

在本部分开头和前面的一章我们谈到了定类数据。更具体地说,我们说过对于定类数据,数学运算没有意义。这也是确保统计效度的一套科学实践准则之一。

在不同的研究领域,对于不同种类的数据能做或不能做什么都有不同的衡量标准。一个建筑师可能对三个不同摄氏温度变化的比较结果毫不关心,但是物理学家恰恰相反。事实上,在一些领域,人们甚至根本不把定类数据和定序数据当作定量数据,而是视作定性数据(我们会在下面讨论)。

统计效度的另一方面是抽样效度。在许多领域,科学家几乎从不研究总体(人、树或胶质软糖),他们常常从总体中抽取样本进行研究。如果科学家想表明他们的发现是具有普遍性的,正确的抽样技术是必要的。如果研究结果具有普遍性,那些结果以及由那些结果创造的科学问题的答案,不仅适用于被实际抽取进行研究的这部分研究对象,还应适用于被取样的总体。后续我们会更深入地探讨这一点。

3.2.4 外在效度

在之前一章,我们提到了外在效度。在这种情况下,当我们研究站在不同楼梯台阶上的人,我们不想得出与楼梯无关的结论。黑色胶质软糖呢?可能我们只对我们称过的黑色胶质软糖的重量感兴趣。但是正如我们上面注意到的,科学家常常对回答有关总体的问题感兴趣。

我们可以称量地球上每颗黑色胶质软糖的重量,算出它们的平均重量,这样得出的黑色胶质软糖重量的结果无疑是有效的(假定我们正确地操作化了黑色胶质软糖)。然而,因为我们没有无限的研究资金,我们通常在总体中取样进行研究。

取样的目标是确保研究结果的有效性和普遍性,即被回答的科学问题是针对整个被研究的总体回答的(黑色胶质软糖、松树、用左手雪茄者、克利夫兰出生的学步幼儿等),我们要确保所选的研究对象没有其他属性会使研究结果不准确(这些被叫做混淆变量)。为了确保我们的发现具有普遍性,样本应该能代表总体,这通常意味着研究对象是从总体中随机选择的,总体中所有个体被选中的机会是均等的(然而,这种抽样有时候不可能)。

在我们的胶质软糖研究中,我们可能从半径10英里范围内选出12家糖果店,派人从每家购买一盒胶质软糖,挑出里面所有的黑色软糖,再找不同的人群蒙上双眼随机从中抽选一个。

上面的研究设计真的给了我们随机样本吗?要是我们城市的胶质软糖都是星期一做好星期二送到的,来自同一个工厂,而星期一做的软糖总是小一点,因为机器在周末冷却了,那会怎么样?我们不得不申请研究经费,让人坐飞机到另一个地区去买不同的胶质软糖。或者可以声称我们调查的胶质软糖局限于我们的城市。

评判科研结果具有外在效度和普遍性的最重要标准是再现性(reproducibility)。如果一个实验在不同实验室,由不同科学家来进行能得到同样的结果,这个实验就具备再现性。就我们的胶质软糖实验来说,在不同的城市进行实验发现得出的结果是一致或相似的,这个结果支持了我们的发现具有普遍性的观点,强化了原先实验的有效性。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈