计算社会学:理解与管理信息化风险

更新时间：2025-01-12 工作计划版权反馈

【摘要】：信息化风险是社会研究中最普遍的风险，它急剧增加，也是最难理解的风险。研究人员减少信息化风险的一项措施是数据“匿名化”。尽管如此，他们并不会公布所有的数据；相反，他们通过删除姓名和住址等信息来“匿名化”这些数据。图6.4“匿名化”是移除显著认证信息的过程。虽然各自的信息源可能都是相对安全的，但是它们被合并后，就增加了信息化风险。

信息化风险是社会研究中最普遍的风险，它急剧增加，也是最难理解的风险。

在数字时代的社会研究中，第二个道德挑战就是信息化风险，一种因泄露某些信息而带来的潜在伤害（National Research Council 2014）。来自个人信息的泄露所产生的信息化伤害可以体现在经济方面（比如丢失工作）、社会方面（比如身处尴尬境地）、心理方面（比如抑郁），甚至是犯罪方面（比如因非法行为被捕）。不幸的是，在数字时代，这种信息化伤害急剧增加，因为我们的行为中藏有更多的信息。相较于模拟时代下社会研究所关心的风险，比如自然风险，信息化风险更难被理解与管控。

研究人员减少信息化风险的一项措施是数据“匿名化”。“匿名化”是从数据中移除诸如姓名、住址以及电话号码等显著个人信息的过程。尽管如此，该方法远不如许多人以为的那样有效，事实上，这种方法的深度和广度均受到限制。因此，无论何时，在描述“匿名化”时，我都将使用双引号来提醒你这样的过程只是一种表面的匿名，并非真正的匿名。

一个关于“匿名化”失败的生动的例子来自20世纪90年代晚期的马萨诸塞州（Sweeney 2002）。团体保险委员会（GIC）是一个政府机构，对缴纳健康保险的所有联邦雇员负责。通过这样的工作，团体保险委员会搜集到了有关联邦雇员的大量详尽的健康记录。为了促进研究，团体保险委员会决定将这些记录发布给研究人员。尽管如此，他们并不会公布所有的数据；相反，他们通过删除姓名和住址等信息来“匿名化”这些数据。但是，他们留下了自己认为可能对研究人员有用的其他信息，例如人口统计信息（邮编、出生日期、族裔以及性别），医疗信息（医生访问时间、诊断以及实施步骤）（图6.4）（Ohm 2010）。不幸的是，这种“匿名化”并没有充分保护这些数据。

图6.4　“匿名化”是移除显著认证信息的过程。比如，当公开联邦雇员的医疗保险记录时，马萨诸塞州团体保险委员会从文件中移除姓名以及家庭住址等信息。

为了说明团体保险委员会“匿名化”的缺点，拉塔尼娅·斯威尼（Latanya Sweeney），一名麻省理工学院的研究生，支付了20美元购买了马萨诸塞州州长威廉·韦尔德（William Weld）的故乡剑桥市的投票记录。这些投票记录包括了诸如姓名、住址、邮编、生日以及性别等信息。事实上，医疗数据文件和投票记录有许多共同的信息，包括邮编、生日和性别，这意味着斯威尼也可以将其联系起来。斯威尼知道韦尔德的生日是1945年7月31日，根据投票记录，剑桥市只有6个人有同样的生日。再进一步，这6人中只有3人是男性。接下来，3位男性中只有一人跟韦尔德的邮编一致。因此，根据投票数据显示的内容，任何人都能够将韦尔德的生日、性别和邮编信息与医疗记录联系起来找出韦尔德。本质上，这三条信息在数据中像是他的一个独特的指纹信息。通过这样的结果，斯威尼能够定位出韦尔德的医疗记录，为了告知韦尔德她的成就，斯威尼向他寄送了一份数据拷贝（Ohm 2010）。

斯威尼的工作说明了“再识别攻击”的基本结构，这是一个计算机安全领域的术语。在这些攻击中，两个数据库本身都没有显示敏感信息，但两个数据库是相互关联的，通过这种联系，攻击者使得敏感信息被暴露。

图6.5　“匿名化”数据的再识别。拉塔尼娅·斯威尼通过结合投票记录和“匿名化”医疗记录，寻找威廉·韦尔德州长的医疗记录。来源于Sweeney（2002），图1。

为了回应斯威尼的工作和其他相关工作，研究人员现在通常在整个“匿名化”过程中删除更多的信息，即所谓的“个人识别信息”（PII）（Narayanan and Shmatikov 2010）。此外，许多研究人员现在认识到，即使在“匿名化”之后，某些数据（如医疗记录、财务记录、有关非法行为的调查问卷回答）也可能过于敏感。我要讲的例子表明社会研究人员需要改变他们的想法。作为第一步，假设所有数据都有可能被识别，并且所有数据都可能是敏感的，这是明智的。换句话说，与其认为信息化风险适用于一小部分项目，我们还不如假设它在某种程度上适用于所有项目。

网飞奖表明了这种重新定位的两个方面。正如第5章所描述的，网飞公司公布了由近50万名会员提供的1亿条电影评级信息，并且公开征集来自世界各地的人提交的算法，以提高其推荐电影的能力。在公布这些数据之前，网飞公司移除了所有显著的个人认证信息，比如姓名等。他们还增加了一项特别措施，在一些记录中引入了轻微的干扰项（比如将某些评级由4星改为3星）。尽管如此，网飞很快发现，虽然他们付出了相应的努力，但数据仍然不是匿名的。

仅在他们公开这些数据的两周后，阿尔温德·纳拉亚南与维塔利·施马季科夫就表明，了解特定人群的电影喜好是可能的。其窍门在于采用与斯威尼手法相似的再识别攻击：把两个信息源合为一体，一个信息源具有潜在的敏感信息，但没有明显的识别信息，另一个包含人的身份信息。虽然各自的信息源可能都是相对安全的，但是它们被合并后，就增加了信息化风险。在网飞数据的例子中，就发生了这样的事。试想一下，当我选择与同事分享我关于动作电影与喜剧电影的想法时，我并不会愿意分享我对宗教和政治类电影的看法。我的同事可能利用我所分享的看法去网飞数据库中找到相关信息。我所分享的信息可能像威廉·韦尔德的生日、邮编、性别信息那样，成为一个独特的指纹。他们可以了解到我对所有电影的评价，包括我选择不分享的电影。除了这种针对单人的目标攻击之外，纳拉亚南与施马季科夫还表明，通过将网飞数据与某些人选择在互联网电影数据库（IMDb）上发布的电影评级数据合并，可以进行广泛攻击，即涉及多人的攻击。很简单，任何特定人员的独特指纹信息，即使是他们的电影评级信息，都可以用于识别他们。

尽管网飞数据可以被用于再识别攻击或广泛攻击，但是它仅可能是低风险的。毕竟，电影评级信息看起来并不那么敏感。虽然这在通常情况下是正确的，但对集中了50万人的数据库来说，电影评级信息可能就相当敏感。事实上，作为对再识别的回应，一名未公开身份的女同性恋者加入了对网飞公司的集体诉讼中。

网飞奖数据的再识别说明，所有数据都有可能被识别，并且所有数据都可能是敏感的。此时，你可能会认为这只适用于那些与人有关的数据。令人惊讶的是，其实不是这样的。为了回应《信息自由法》的请求，纽约市政府公开了2013年纽约市所有的出租车行驶记录，包括其接客与落客的时间、位置以及付款金额等信息（回顾第2章，法伯使用了类似的数据来检验劳动经济学中的重要理论）。这些有关出租车行程的数据可能看起来没什么问题，因为它们并不涉及人的信息，但安东尼·托卡（Anthony Tockar）意识到这些出租车数据库实际上包含了许多有关人的潜在敏感信息。为了确认这一点，他浏览了午夜到早上6点从纽约一家大型脱衣舞酒吧出发的行程记录，并找到其落客位置。这项搜索实质上找出了一些经常光顾这个酒吧的人的住址（Tockar 2014）。很难想象市政府在公布数据时是否考虑到了这一点。事实上，用同样的办法可以找到去这座城市任何地方，包括去诊所、政府大楼或者是宗教场所的人的家庭住址。(www.xing528.com)

网飞奖和纽约市出租车数据的这两种情况表明，相对有经验的人也可能无法正确地估计他们发布的数据中存在的信息化风险，而这些案例并非个例（Barbaro and Zeller 2006；Zimmer 2010；Narayanan，Huey，and Felten 2016）。而且，在许多这样的情况下，有问题的数据仍然可以被在线免费获取，这表明撤销已发布的数据是非常困难的。总的来说，这些例子以及计算机科学关于隐私的研究引出了一个重要的结论。研究人员应该假定所有数据都有可能被识别，并且所有数据都可能是敏感的。

不幸的是，并不存在简单的解决方案，也就是说所有的数据都可能被识别，并且所有数据都可能是敏感的。尽管如此，在你的数据工作中，其中一项能够降低信息化风险的措施是创建并遵循一个数据保护计划。该项计划能够降低你泄露数据的概率，并且在数据泄露发生后能够降低伤害。随着时间的推移，数据保护计划的具体项目，包括能够使用的加密形式，都在改变。英国数据服务中心（UK Data Services）有效地归纳了数据保护计划所必备的5项要素，他们称之为“5个安全”：项目安全、对象安全、数据安全、设置安全、成果安全（表6.2）（Desai，Ritchie，and Welpton 2016）。这5项安全措施中的任何单独一项都不能提供完美的保护措施。但是将它们组合在一起，则可以有力降低信息化风险。

表6.2　“5个安全”是设计和执行数据保护计划的原则

除了在使用数据时保护数据以外，研究过程中信息化风险特别突出的一个步骤是与其他研究人员共享数据。科学家之间的数据共享是科学探索的核心价值，并且它能够在很大程度上促进知识的进步。以下是英国下议院对数据共享重要性的看法（Molloy 2011）：

如果研究人员要重现、验证文献中发表的结果并在其基础上建立其他研究，获取数据是至关重要的。因此我们必须假定，除非拥有很强的其他理由，否则数据应该被充分披露并公开。

至此，当与其他研究人员共享数据时，你可能增加了你的信息化风险。因此，似乎在与其他科学家分享数据的义务和为参与者减少信息化风险的义务之间，共享数据这一行为带来了基础性的紧张关系。幸运的是，这种矛盾并不像看起来那么严重。相反，最好将数据共享视为一个连续统一体，这个连续统一体的每一点提供了不同的社会收益与参与者风险的组合（图6.6）。

图6.6　数据共享的策略位于一个连续统一体之中。你应该在这个连续统一体中的哪个部分，取决于你的数据具体细节，第三方监管可能会帮助你决定案例中风险收益的适当平衡。这条曲线的确切形状取决于数据和研究目标的具体情况（Goroff 2015）。

在一种极端情况下，你可以不对任何人共享你的数据，这样的话参与者风险也就最小化了，相应社会收益也最小。在另一种极端情况下，你可以无特定对象公开，数据被“匿名化”并被所有人使用。相较于不公开数据，这种无特定对象公开能够提供更高的社会收益，但也随之给参与者带来了更高的风险。在这两种极端情况之间的混合范围里，存在一种我称之为保护性公开的方法。在这样的方法下，你可以将数据与符合特定标准并同意受某些规则约束的人共享（比如在机构审查委员会和数据保护计划的监管下）。这种保护性公开的方法提供了许多公开的好处，并减少了无特定对象公开的风险。当然，这样的方法也会产生很多问题，比如，谁能获得这样的权限，在什么样的条件下，能使用多久，谁又为这样的保护性公开所带来的监管成本埋单等，但这些都是可以被解决的。事实上，在有些地方，现在已经有相应的保护性公开方法被研究人员采用了，比如密歇根大学的校际政治及社会研究联盟（ICPSR）的数据档案。

那么，你在研究中将采取何种数据处理措施？非公开，保护性公开，还是无特定对象公开？这个取决于你的数据的具体情况，研究人员必须权衡四项原则。从这个角度看，数据共享并不是一个独特的道德难题，它只是研究人员必须找到合适的道德平衡的许多方面之一。

一些批评家普遍反对数据共享，在我看来，他们专注于风险，这无疑是对的，但他们忽略了它的好处。因此，为了鼓励关注风险与收益，我想提供一个类比。每年，因为汽车所产生的事故都会造成数以千计的人死亡，但是我们不会试图禁止驾车。事实上，禁止驾车的呼吁是荒谬的，因为驾车也能为我们带来许多美好的事情（不能因噎废食）。相反，社会可以限制谁能驾车（例如，需要达到某个年龄并通过某些测试），以及他们如何驾车（例如在限速的情况下），社会也有负责执行这些规定的人员（例如警察），我们会惩罚那些违反规则的人。同样，社会管理驾车问题的平衡思想也可以用于数据共享的过程。也就是说，我认为我们可以通过降低风险和提高数据共享收益，获取最大的进展，而不是为数据共享提供绝对的支持或反对论据。

总而言之，信息化风险增长迅速，并且很难预测和衡量。因此，最好假设所有的数据都有可能被识别，并且所有的数据都可能是敏感的。为了在研究过程中减少信息化风险，研究人员可以创建并遵循一些数据保护措施。另外，信息化风险不会阻止研究人员从其他科学家处获得共享数据。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈