对于隐私保护技术效果可用“披露风险”来度量。披露风险表示攻击者根据所发布的数据和其他相关的背景知识,能够披露隐私的概率。那么隐私保护的目的就是尽可能降低披露风险。隐私保护技术大致可以分为以下几类。
(一)基于数据失真(Distortion)的技术
数据失真技术简单来说就是对原始数据“掺沙子”,让敏感的数据不容易被识别出来,但沙子也不能掺得太多,否则就会改变数据的性质。攻击者通过发布的失真数据不能还原出真实的原始数据,但同时失真后的数据仍然保持某些性质不变。比如对原始数据加入随机噪声,可以实现对真实数据的隐藏。当前,基于数据失真的隐私保护技术包括随机化、阻塞(Blocking)、交换、凝聚(Condensation)等。例如,随机化中的随机扰动技术可以在不暴露原始数据的情况下进行多种数据挖掘操作。由于通过扰动数据重构后的数据分布几乎等同于原始数据的分布,因此利用重构数据的分布进行决策树分类器训练后,得到的决策树能很好地对数据进行分类。而在关联规则挖掘中,可以在原始数据中加入很多虚假的购物信息,以保护用户的购物隐私,但同时又不影响最终的关联分析结果。
(二)基于数据加密的技术
在分布式环境下实现隐私保护要解决的首要问题是通信的安全性,而加密技术正好满足了这一需求,因此基于数据加密的隐私保护技术多用于分布式应用中,如分布式数据挖掘、分布式安全查询、几何计算、科学计算等。在分布式环境下,具体应用通常会依赖于数据的存储模式和站点(Site)的可信度及其行为。(www.xing528.com)
对数据加密可以起到有效地保护数据的作用,但就像把东西锁在箱子里,别人拿不到,自己要用也很不方便。如果在加密的同时还想从加密之后的数据中获取有效的信息,应该怎么办?最近在“隐私同态”或“同态加密”领域取得的突破可以解决这一问题。同态加密是一种加密形式,它允许人们对密文进行特定的代数运算,得到的仍然是加密的结果,与对明文进行运算后加密一样。这项技术使得人们可以在加密的数据中进行诸如检索、比较等操作,得出正确的结果,而在整个处理过程中无须对数据进行解密。比如,医疗机构可以把病人的医疗记录数据加密后发给计算服务提供商,服务商不用对数据解密就可以对数据进行处理,处理完的结果仍以加密形式发送给客户,客户在自己的系统上才能进行解密,看到真实的结果。但目前这种技术还处在初始阶段,所支持的计算方式非常有限,同时处理的时间开销也比较大。
(三)基于限制发布的技术
限制发布也就是有选择地发布原始数据、不发布或发布精度较低的敏感数据,实现隐私保护。这类技术的研究主要集中子“数据匿名化”,就是在隐私披露风险和数据精度间进行折中,有选择地发布敏感数据或可能披露敏感数据的信息,但保证对敏感数据及隐私的披露风险在可容忍范围内。数据匿名化研究主要集中在两个方面:一是研究设计更好的匿名化原则,使遵循此原则发布的数据既能很好地保护隐私,又具有较大的利用价值;二是针对特定匿名化原则设计更“高效”的匿名化算法。数据匿名化一般采用两种基本操作:一是抑制,抑制某数据项,亦即不发布该数据项,比如隐私数据中有的可以显性标识一个人的姓名、身份证号等信息;二是泛化,泛化是对数据进行更概括、抽象的描述。
安全和隐私是云计算和大数据等新一代信息技术发挥其核心优势的拦路虎,是大数据时代面临的一个严峻挑战。但是这同时也是一个机遇,在安全与隐私的挑战下,信息安全和网络安全技术也得到了快速发展,未来安全即服务(Security as a Service)将借助云的强大能力,成为保护数据和隐私的一大利器,更多的个人和企业将从中受益。历史的经验和辩证唯物主义的原理告诉我们,事物总是按照其内在规律向前发展的,对立的矛盾往往会在更高的层次上达成统一,矛盾的化解也就意味着发展的更进一步。相信随着相关法律体系的完善和技术的发展,未来大数据和云计算中的安全隐私问题将会得到妥善解决。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。