首页 理论教育 大数据隐私保护措施

大数据隐私保护措施

时间:2026-01-23 理论教育 小熊猫 版权反馈
【摘要】:在大数据复杂的环境中,要实现数据发布匿名保护技术较为困难。

隐私是一种与公共利益、群体利益无关,当事人不愿他人知道或他人不便知道的个人信息。大数据的来源范围非常广阔,包括社交网站、交易信息、位置信息、行为轨迹、电子邮件等有价值的信息,如果对电子邮件、搜索记录、交谈记录、文件传输记录、社交网站行为等海量数据进行分析,并关联现实中的一些个人行为(如信用卡、电话录音等),基本能够还原一个人的行为及生活轨迹,势必对用户隐私产生威胁。这些个人隐私信息被泄露后,其人身安全可能受到影响;同时,由于互联网管理制度的落后,没有对互联网中隐私数据的所有权和使用权进行界定和制定合理的标准,将使得用户隐私泄露后用户权利不能得到维护。

11.4.3.1 大数据隐私保护对策

大数据技术的普及,使个人在网上的一切活动变成了以各种形式存储的数据,如何确保这些数据不被滥用、不被未经授权地泄露给第三方,是一大难题。大数据时代加强个人隐私保护的几点建议[12—14]如下。

1)加强对数据收集和使用企业的监督管理

2012年底我国出台了《关于加强网络信息保护的决定》,明确了企业收集、使用公民个人电子信息的义务,该规定要求数据收集、使用等经用户同意,并进行合理使用。要确保企业履行上述义务,政府部门必须加强监督管理,通过制定标准规范或制定实施细则等方式,细化数据收集和使用企业的义务;建立有效的政府调查和介入机制,在用户投诉等情况下,政府能迅速介入进行调查取证,对违反法律规定的行为予以处理。

2)引导企业给予用户更多的个人数据控制权

目前大多数互联网企业采取在网站上公布服务的格式条款,并由用户选择“同意”或“不同意”的方式,使用户消极地同意企业对个人数据的收集、使用。企业为向用户提供精准的、个性化的服务,必然需要收集用户相关数据和信息,但是企业必须实现在收集用户数据和保障用户权益之间的平衡,过度收集和数据滥用都将引起用户反感。为此,企业应当给予用户更多的个人数据控制权,给用户更多的选择权、保障用户的知情权,并对用户数据合理使用。

3)对隐私数据进行分级保护

企业可以将隐私级别划分成不同等级,并分别实施不同的保护机制,例如:

隐私级别1(Speed):这个级别的数据中没有包含敏感信息,对应的数据区域采用弱加密的方式,以获得更多的服务性能。

隐私级别2(Hybrid):这个级别的数据中包含了一些敏感信息,对应的数据区在以不大幅影响系统性能的前提下,采用较复杂的加密算法。

隐私三级3(Security):这个级别的数据中包含大量的重要信息与敏感数据,对应的数据区牺牲性能而采用最高级别的加密算法以保证数据安全。

4)完善互联网企业服务行业自律公约

互联网企业要想在大数据时代的背景下走得更长远,就要努力构建本行业的通用规章,维护用户信息安全,建立客户信任感,从大数据中获得持久利益。首先要改变秘密收集用户信息的现状。尊重用户知情权,向其告知企业商收集用户个人信息的情况,给予用户是否授权运营商收集和利用自身信息数据的权利,并在服务条款里阐明个人信息数据的使用方式和使用期限。其次努力寻求社交网络个人信息拥有者、数据服务提供商以及数据消费者之间共同认可的行业自律公约,保证数据共享的合法性,使第三方在使用社交网络数据时保证用户个人信息的隐私和安全,以营造安全的数据使用环境。

5)进一步提高用户的隐私保护意识

在大数据时代,用户既是数据的消费者也是数据的生产者,用户有权利拥有自己的数据、掌握数据的使用,也有权利毁坏或贡献出数据。大数据时代没有绝对的隐私,为享受更个性化、精准化的服务,用户必然需要让出自己的相关数据。但是用户要知道自己对个人数据有哪些权利,对于企业过度的数据采集和数据滥用,要保持警惕。

6)提高用户的信息安全素养

提高信息安全素养是社交网络用户在大数据时代主动保护个人信息安全的有力措施。具体来说,信息安全素养包括信息安全意识、信息安全知识、信息伦理道德和信息安全能力等具体内容。信息安全知识的丰富,有助于人们了解木马、钓鱼网站的特性特点,从而提高信息安全意识,明确信息安全在大数据时代的重要性,以及了解保护个人和他人信息安全的职责和义务,遵守信息法律伦理,并在一定程度上具有防范计算机网络犯罪和病毒攻击、及时备份重要资料的信息安全能力。

11.4.3.2 大数据的隐私保护关键技术

技术是加强隐私保护一个重要方面,世界经济论坛发布的一份报告提出要依靠技术来保护隐私,将技术作为隐私保护的一项重要措施。公司高管以及隐私保护专家一致认为,解决隐私保护问题最好的办法就是将隐私保护规则与高科技结合起来。(https://www.xing528.com)

大数据环境下,随着分布式计算的广泛应用,在多点协同运行、数据实时传输和信息交互处理过程中,如何保证各独立站点和整个分布式系统的敏感信息以及隐私数据的安全,如何平衡高效的数据隐私保护策略算法与系统良好运行应用之间的关系,这些都成为急需解决的重要问题。

大部分现有隐私保护模型和算法都是针对传统的关系型数据,不能将其直接移植到大数据应用中。原因在于,攻击者的背景知识更加复杂也更难模拟,不能通过简单的对比匿名前后的网络进行信息缺损判断。目前用于大数据隐私保护的主要技术包括数据发布匿名保护技术、社交网络匿名保护技术、数字水印技术、数据溯源技术、数据的确定性删除技术、保护隐私的密文搜索技术、保护隐私的大数据存储完整性审计技术[15—18]等几个方面。

1)数据发布匿名保护技术

就结构化数据而言,要有效实现用户数据安全和隐私保护,数据发布匿名保护技术是关键点,但是这一技术还需要不断发掘和完善。现有的大部分数据发布匿名保护技术的基本理论的设定环境大多是用户一次性、静态地发布数据。如通过元组泛化和抑制处理方式分组标识符,用k匿名模式对有共同属性的集合进行匿名处理,但这样容易漏掉某个特殊的属性。但是一般来说现实是多变的,数据发布普遍是连续、多次的。在大数据复杂的环境中,要实现数据发布匿名保护技术较为困难。攻击者可以从不同的发布点、不同的渠道获取各类信息,帮助他们确定一个用户的信息。

2)社交网络匿名保护技术

包含了大量用户隐私的非结构化数据大多产生于社交网络,这类数据最显著的特征就是图结构,因而数据发布保护技术无法满足这类数据的安全隐私保护需求。一般攻击者都会利用点和边的相关属性,通过分析整合,重新鉴定出用户的身份信息。所以,在社交网络中实现数据安全与隐私保护技术,需要结合其图结构的特点,进行用户标识匿名以及属性匿名(点匿名),即在数据发布时对用户标识和属性信息进行隐藏处理;同时对用户间关系匿名(边匿名),即在数据发布是对用户之间的关系连接有所隐藏。这是社交网络数据安全与隐私保护的要点,可以防止攻击者通过用户在不同渠道发布的数据,或者是用户之间的边联系推测出原本受匿名保护的用户,破解匿名保护。或者是在完整的图结构中,应用超级节点进行图结构的部分分割和重新聚集的操作,这样边的匿名就得以实现,但这种方法会降低数据信息的可用性。

3)数字水印技术

水印技术是指将可标识信息在不影响数据内容和数据使用的情况下,以一些比较难察觉的方式嵌入到数据载体里。一般用于媒体版权保护中,也有一些数据库和文本文件应用水印技术的。不过在多媒体载体上与数据库或者文本文档上应用水印技术有着很大的不同是基于二者的数据的无序和动态性等特点并不一致。数据水印技术从其作用力度可以分为强健水印类,多用于证明数据起源,保护原作者的创作权之类;而脆弱水印类可用于证明数据的真实与否。但是水印技术并不适应现在快速大量生产的大数据,这是需要改进的一点。

4)数据溯源技术

对数据溯源技术的研究一开始是在数据库领域内的,现在也被引入到大数据隐私保护中来。标记来源的数据可以缩短使用者判断信息真伪的时间,或者帮助使用者检验分析结果正确与否。其中标记法是数据溯源技术中最为基本的一种手段,主要是记录数据的计算方法(why)和数据出处(where)。对于文件的溯源和恢复,数据溯源技术也同样发挥了极大的作用。

5)数据的确定性删除技术

数据安全销毁(secure data deletion)是近年来大数据安全中的新的热点问题。由于用户在使用大数据服务的过程中,不再真正意义(物理)上拥有数据,如何保证存储在云端、不再需要的隐私数据能够安全销毁成为新的难点问题。传统的保护隐私数据的方法是在将数据外包之前进行加密。那么大数据的安全销毁实际上就转化为(用户端)对应密钥的安全销毁。一旦用户可以安全销毁密钥,那么即使不可信的服务器仍然保留用户本该销毁的密文数据,也不能破坏用户数据的隐私。现有大量的系统是通过覆盖来删除所存储的数据。但是使用覆盖的方法严重依赖于基本的物理存储介质的性质。对现在广泛使用的云计算以及虚拟化模型来说,数据所有者失去了对数据存储位置的物理控制。因此,基于存储介质的物理性质的安全数据删除方法并不能满足现在的需求。确定性删除技术是在假设数据使用者不保存数据加密密钥这样一个强的安全假设下设计的,无法满足数据的后向安全性。若数据使用者成功访问过一次数据并保存数据加密密钥,即使密钥管理者回收控制策略、删除与其相关联的控制密钥,数据访问者依旧可以恢复明文数据,这样就不能达到数据确定性删除的效果。一种解决办法是数据所有者可以周期性地更新数据加密密钥,但这需要消耗大量的计算能力和通信带宽。

6)保护隐私的密文搜索技术

所谓的密文搜索主要是通过关键词语的搜索实行隐私保护,在具体的搜索过程中需要形成有效的可搜机制,并针对密钥对称和可搜索密钥开展有效的加密工作,当搜索者进行加密数据搜索时,相关的数据使用者可使用可搜索的非对称加密,为搜索者提供最终结果。

(1)隐私关键词,使用者会从自身角度出发制定一个密码关键词,实行隐私的保护。但是这种形式存在一定的安全问题,不法分子通过某种攻击方式就可获取,例如,分析词频、文件、关键词攻击等。

(2)不可关联性陷门,陷门的安全性是在确保相同结合关键词的前提下实行的,如果在陷门中没有满足此类要求,那么在一定程度上也会造成关键词的外泄。

(3)接入模式,现阶段很多接入模式并没有列入保护搜索的内容中,主要原因是因为往内接入模式是通过获取密码信息来实行隐私保护的一种运作形式,实际应用代价较大,范围规模过大不利于现实应用。

7)保护隐私的大数据存储完整性审计技术

隐私数据在大数据服务器中是否能够在完好存入后,又可以完整性的取出是当前很多用户关心的主要问题之一,但是这种情况给现阶段任务存数量大的存储服务器来说带来了不小的压力和负担,因为这种隐私数据的完整性审计会消耗大量的网络带宽。针对这种情况,可以通过群组有效用户的方式实现大数据的完整性审计,这种方案在运行的过程中主要减少了用户的负担,并将维护完整性数据所需要的消耗成本转移给云端进行承担,但是这种方案在设计的基础上,还要充分考虑多个审计任务同时进行的情况,加大技术支持,并对方案内容进行全当面的拓展,保证在多个任务下的审计能力支持,提高保护审计效率,减少审计时间。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈