脏数据的危险性和清洗方法

更新时间：2025-01-12 工作计划版权反馈

【摘要】：我在本章前面章节中简要提及的米蒂亚·巴克和同事关于人们对2001年9月11日恐怖袭击事件的情绪反应的研究，可以证明脏数据的危险性。这些人会积极制造脏数据，而且努力保证其脏数据的隐蔽性。不幸的是，要想移除这些有意制造的脏数据却可能非常困难。当然，一组数据是否是脏数据，部分程度上还是取决于研究问题本身。没有单一的统计技术或方法能确保你已充分清洗了脏数据。

大数据中含有许多垃圾和重复数据。

许多研究人员认为大数据资源，尤其是在线资源，都是洁净的，因为这些数据都是自动搜集的。事实上，那些与大数据资源打交道的人都知道，在大多数情况下，这些资源都含有脏数据。也就是说，它们经常包含研究人员不感兴趣的数据。大多数社会科学家已经熟悉了清理大规模社会调查数据的过程，但清理大数据资源似乎更加困难。我认为造成这一困难的最终原因是，许多大数据资源从来都不是为了用于研究而存在的，因此其数据也没有以方便清理的方式被搜集、存储和记录。

我在本章前面章节中简要提及的米蒂亚·巴克（Mitja Back）和同事关于人们对2001年9月11日恐怖袭击事件的情绪反应的研究，可以证明脏数据的危险性。研究人员一般会用通过数月甚至数年搜集而来的回顾性数据研究人们对悲惨事件的反应。但巴克和同事发现了一个不间断运行的记录数字痕迹的资源——标有时间的、自动记录的85000个美国传呼机的信息，这使他们能研究更小时间单位内的情绪反应。他们根据与（1）悲伤（例如“哭泣”和“悲痛”），（2）焦虑（例如“担忧”和“恐惧”）以及（3）愤怒（例如“憎恨”和“批评”）相关词汇的出现比例对传呼机信息中的情绪内容进行了编码，进而制作了一个以分钟为单位的2001年9月11日的情绪时间表。他们发现，与悲伤和焦虑相关词汇的出现比例全天都在波动，但没有一个明显的模式，与愤怒相关词汇的出现比例在一天中却有明显的增加。这一研究似乎完美地诠释了不间断运行的大数据资源的优势，如果使用传统的数据资源，就不可能获得如此高分辨率的突发事件即时情绪反应时间表。

然而，仅仅一年之后，辛西娅·普利（Cynthia Pury）更仔细地研究数据后发现，大量原来被认为包含与愤怒相关词汇的信息都是由一个传呼机产生的，而且内容也完全相同。以下就是这些信息的内容：“重启在【位置】柜【名称】内的NT机【名称】，CRITICAL（情况危急），【日期和时间】。”

这些信息被认为与愤怒相关，因为其包含了“CRITICAL”这一单词，而该单词一般来说具有愤怒地批评之意，但它在上面这句话中不是此意。将这一自动传呼机产生的信息删除之后，愤怒情绪就没有原来那么明显的上涨趋势了（图2.3）。换句话说，米蒂亚·巴克、阿尔布雷希特·屈夫纳（Albrecht Küfner）以及鲍里斯·埃格洛夫（Boris Egloff）的主要发现其实是一个传呼机的“杰作”。正如这个例子所示，对相对复杂和凌乱的数据进行相对简单的分析，就很有可能出现严重的错误。(www.xing528.com)

图2.3　基于85000个美国传呼机而估算出的2001年9月11日当天愤怒情绪的趋势（Back，Küfner，and Egloff 2010；Pury 2011；Back，Küfner，and Egloff 2011）。起初，三位研究人员称，从全天来看，愤怒情绪呈现出不断上涨的模式。然而，这些表面看起来包含愤怒情绪的信息大多是由一个自动传呼机产生的。将这一信息移除后，愤怒情绪的上涨趋势便不那么明显了（Pury 2011；Back，Küfner，and Egloff 2011）。改编自Pury（2011），图1b。

上述自动传呼机所产生的重启信息并不是有意创建的脏数据，就这样的数据而言，比较细心的研究人员还是可以发现的。但还有一些在线系统吸引的是有意的垃圾数据发送者。这些人会积极制造脏数据，而且努力保证其脏数据的隐蔽性。（通常是在利益的驱使下。）例如，为了让某些政治目的看起来比实际更受欢迎，推特上的政治活动至少会给用户推送一些适度的宣传广告（Ratkiewicz et al.2011）。不幸的是，要想移除这些有意制造的脏数据却可能非常困难。

当然，一组数据是否是脏数据，部分程度上还是取决于研究问题本身。例如，维基百科的许多编辑工作是由机器人完成的（Geiger 2014）。如果你想了解维基百科的生态技术，那这些由机器人完成的编辑内容就是重要的资源。但如果你想了解人类对维基百科的贡献，那这些内容就不该在研究范围内了。

没有单一的统计技术或方法能确保你已充分清洗了脏数据。我认为避免被脏数据愚弄的最好方法是尽可能地了解你的数据是如何创建的。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈