公司和政府拥有的一些数据是敏感数据。
医疗保险公司掌握着客户所接受的医疗护理的详细信息。这些信息可以被用于针对健康的重要研究,但如果将其公之于众,就可能导致情感伤害(例如尴尬)或经济伤害(例如失业)。许多其他数据资源也含有敏感信息,这也是它们常常难以获取的部分原因所在。
不幸的是,事实证明,想确定哪些信息属于敏感信息是非常棘手的(Ohm 2015),网飞奖(Netflix Prize)就是一个例子。2006年,网飞(Netflix)公开了近50万会员的一亿条电影评分信息,并向全世界征集能提高其电影推荐能力的算法。在公开数据之前,网飞删除了姓名等所有明显的个人信息。但仅在数据公开两周后,阿尔温德·纳拉亚南(Arvind Narayanan)和维塔利·施马季科夫(Vitaly Shmatikov)就发现了一个了解某人电影评分信息的技巧,这个技巧我将在第6章进行介绍。攻击者能找出一个人的电影评分信息,这似乎并不是什么敏感信息。尽管一般来说是这样,但至少对上述50万人中的部分人来说,电影评分信息也是敏感信息。事实上,上述数据的公布和纳拉亚南等人的发现使一名未公开表明性取向的女同性恋者加入了针对网飞的集体诉讼。以下是这起诉讼中对这一问题的表述(Singel 2009):
观影和评分数据包含高度个人化、高度敏感的信息。网飞公布的会员观影信息暴露了会员的个人兴趣和/或所面临的各种高度个人化的困扰(包括性、精神疾病、酗酒康复),以及乱伦、身体虐待、家庭暴力、通奸和强奸等受害情况。(www.xing528.com)
这个例子表明,看似没问题的数据库,却可能包含对某些人来说敏感的信息。此外,它还表明,“去识别化”这一研究人员用来保护敏感信息的主要措施有时也会以令人意想不到的方式失灵。第6章将对这两个观点进行详述。
有关敏感数据,我们要注意的最后一点就是,即便它没有造成具体的危害,在未经当事人同意的情况下搜集该类数据也会引发伦理问题。这在很大程度上就像未经某人同意看其洗澡会被认为是侵犯隐私一样,在未经当事人同意的情况下搜集敏感数据(不要忘了甄别敏感数据是何其之难)也可能引发隐私问题。我将在第6章再回到这一话题。
综上所述,政府和企业行政记录等大数据资源通常都不是为社会研究所创建的。今天的大数据资源往往具有10个特征,近年来的大数据资源也可能具备这些特征。这其中的许多特征——海量性、持续性以及不反应性,通常被认为是有利于研究的,因为在数字时代,企业和政府能够大规模地搜集数据,而这种规模在以前是不可能实现的。也有许多大数据资源的特征——不完整性、难以获取、不具代表性、漂移、算法干扰、脏数据以及敏感性,通常被认为是不利于研究的,因为这些数据不是由研究人员为研究而搜集的。到目前为止,我是把政府所拥有的大数据和企业的大数据放在一起探讨的,但其实两者之间也有区别。根据我的经验,政府大数据的代表性往往强一些,算法干扰和漂移也少一些,而企业的行政记录在不间断运行方面往往更突出。了解这10个一般特征是从大数据资源中获取有用信息的第一步,也是很有帮助的一步。接下来我们将探讨适用于这些数据的研究策略。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。