首页 理论教育 科研入门:解析数据的定义与分类

科研入门:解析数据的定义与分类

时间:2023-08-15 理论教育 版权反馈
【摘要】:在社会研究中,一手数据是指由研究者自己收集而来的数据,而二手数据是指由研究者以外的人收集来的数据。)一手数据和二手数据有优劣高下之分吗?这就要说到二手数据的弱点——因为是别人收集的数据,所以二手数据对于研究者来说有很大的局限性和不确定性。在选择二手数据的时候我们应该尽量选择数据收集者可靠性高的数据来源,比如正规的科研单位、权威机构发布的数据。

科研入门:解析数据的定义与分类

数据(data),是基于实证观察收集而来的包含事物特征的信息,它是关于人或事物的、量化或质化的变量值的集合。

“数据”这个词听上去很容易使人产生误解,以为只有跟数有关的才叫“数据”。其实根据数据的内容划分,数据既包括“量化数据”(quantitative data)也包括“质化数据”(qualitative data)。量化数据确实是“数字化的信息”,比如对人数的统计、温度的测量、智商的评测、某种百分比的计算等,都可以通过量化的信息来表示。而“质化数据”则主要指不可量化的数据,最常见的是“文本数据”(text data),比如字、词、句等信息,又如我们描述人的头发是什么颜色,商店里有什么水果蔬菜,观察一个人说话的时候有哪些常用语,茶叶的品种都有哪些……这些都是文本类的数据,是没办法用数字来描述的信息。量化数据和质化数据因其各自特点而需要使用的数据分析方法也不同,比如量化数据多使用回归分析等量化方法,而质化数据的分析则需要使用主题性编码等方式来分析。

除了上面根据数据内容分类的方法,我们还根据数据的来源把数据分成“一手数据”(primary data)和“二手数据”(secondary data)这两大类。

图2-15 对数据的两种分类:以数据形式分类和以数据来源分类

大家有没有想过,我们每天从外界摄取的信息,有多少真的是一手信息,有多少是二手三手甚至四五手信息?比如说哪个新电影上映了,你的朋友跟你说听说这个电影不错——这就是二手数据,因为你的朋友并没有自己去看,而是转述了别人的体验。在社会研究中,一手数据是指由研究者自己收集而来的数据,而二手数据是指由研究者以外的人收集来的数据。假如你的研究对象是政府机关、研究机构、调查机构收集好的数据,这些都是二手数据;如果你的研究用的是其他研究者为了另一个研究目的收集而来的数据,那也是二手数据。只有你自己或你的团队为了某一个研究目的专门收集的数据才属于一手数据。(当然,如果我为了我的研究目的而去用了你收集的数据,那么对我的研究来说用的就是二手数据。)(www.xing528.com)

一手数据和二手数据有优劣高下之分吗?倒不能简单地去这样评判。应该说两者的优劣要取决于你的研究问题和目的。两者对比起来,有点像是应该买别人盖好的房子还是根据自己的需求来从头盖个房子的区别。

二手数据最大的优点是“省时省力,高效便捷”——你不需要去设计问卷、收集问卷,或做访谈、做笔录、录入数据,你只需要把别人收集好了的、现成的数据拿过来分析就好了。自己收集数据会多耗时呢?如果你在读美国的社科类博士,在写毕业论文的时候打算自己收集数据,那么我会建议你最好做好比其他人晚毕业一年的准备。当然这更多要取决于研究题目、项目规模和研究者的经验丰富程度。使用二手数据一般也需要在数据分析前进行数据格式的清理(cleaning)和转换(transformation),有的时候为了解答某个问题,还需要把两个或多个二手数据合并在一起使用,这也是需要额外工作的。但无论怎样,收集一手数据通常都要比直接使用二手数据花费更多的时间。

既然自己收集数据这么麻烦,为什么还有那么多研究者要自己收集数据呢?这就要说到二手数据的弱点——因为是别人收集的数据,所以二手数据对于研究者来说有很大的局限性和不确定性。比如我们可能并不确定数据收集过程的执行是否严谨、数据编码簿(codebook)编写得是否精准、数据输入得是否无误。另外,因为二手数据不是专门为了我们的研究目的而收集的,它很有可能并没有包含我们需要的某个变量、没有按照我们认为效度高的方式去测量某个变量,或者没有调查到我们想要调研的样本人群——毕竟别人盖房子的时候我们没有参与。因此,虽然二手数据能为实证研究者节省很多的时间,但想要找到足够合适、效度高、来源可靠并能准确回答自己研究问题的二手数据并不是一件容易的事。在选择二手数据的时候我们应该尽量选择数据收集者可靠性高的数据来源,比如正规的科研单位、权威机构发布的数据。像美国的GSS(General Social Survey)和ANES(American National Election Studies)等公开数据都是很著名并且权威的数据。

而相较而言,收集一手数据的最大好处就是量体裁衣——你可以用自己认为正确的方式去精心设计你的问卷或研究过程,你可以去访谈你感兴趣的人群,你可以去观察某个时段下的新现象。在社会科学领域收集一手数据在我看来也是一件非常有趣的事,你可以以研究者的身份去观察和思考很多你感兴趣的现象,你可以动用自己的大脑来尽量把数据收集过程做到最优,你可以亲身去观察、聆听、学习、体验很多来自第一线的材料。比如,对于我自己而言,过去的数据收集工作让我接触到了国内和美国很多不同的非营利机构、政府机关以及高校的管理者、工作人员、志愿者。通过跟他们的交流和对话让我重新理解了很多问题,拓宽了看待世界的视角,这种经历在我看来是超越学术研究本身目的的。

那么如果我们想要自己收集数据,具体到底有哪些收集方法,又有什么注意事项呢?以下我们就来说几个最重要的数据收集方式。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈