根据各种方案中实现数据隐私保护的根本方法,首先将已有方案分为基于加密技术方案和非加密技术方案两大类。采用加密策略的方案中主要包括基于逐跳加密技术、基于安全多方计算技术、基于隐私同态技术和基于数据切片技术的四种类型;而对于非加密策略下的隐私保护方案则主要有通过数据隐藏和通过虚假数据注入来对隐私数据进行保护两种方法。
(一)基于逐跳加密的数据融合隐私保护技术
逐跳加密技术在身份认证、完整性和机密性保证等方面具有较好性能,因而被广泛应用于通信过程中的数据隐私保护。在传统的逐跳加密过程中,数据在每一跳上都需要经过“解密—再加密”的过程,这就意味着在数据融合过程中,融合节点需要首先将接收到的密文进行解密,然后进行融合处理,最后重新加密后再传递给下一跳节点。显然,在这一过程中如果中间节点被捕获,攻击者可以轻易地获取收到的隐私信息。为了在实现安全高效的数据逐跳融合的同时,充分保护数据端到端的隐私性,需要对传统逐跳加密算法进行改进。这其中具有代表性的数据融合隐私保护方案主要有以下两种。
首先是Bista等人提出的一种隐私保护方案,该方案利用复数在算数运算中的特殊性质,通过引入Masked value和Customized data对隐私数据进行形式转换。其中,Masked value是指节点通过自身拥有的机密数据对采集信息进行变换后的数值,如节点采集的温度信息是30,而自身的机密数据为101,则可计算出Masked value=30+101=131。Customized data则是在Masked value的基础上增加一个虚部后构成的复数形式,若虚部位为60i,则customized data=131+60i。逐跳加密的对象是转换后的虚数而非原始数据,这便使得中间节点既可以解密后借助于虚数的特殊性质对数据进行融合处理又不会暴露出原始数据。
另外一种是Kim等人提出的基于Hilbert-curve的数据融合隐私保护方案HDA。该方案包括三个主要步骤:第一步采用洪泛机制进行拓扑发现,通过这一步骤确立节点间的拓扑关系;第二步中则通过引入节点的种子数据对原始数据进行形式变换,重要的是这些种子数据可以在节点间进行交换并形成相关关系;最后,当中间节点接收到所有子节点数据后,借助种子数据可以在不知道原始数据的情况下执行融合操作,并且在加密后传递给下一跳接收者。
这两种方案虽然在数据处理中采用了不同的技术手段,但其目的都是保证中间节点在执行解密、融合、加密的过程中不需要还原出原始数据也能够进行高效的融合处理,从而有效地保证了数据的隐私性。这一类型的方案存在一个共同的问题即中间节点的运算较为复杂,反复进行的解密、融合、加密的过程必然会显著增加节点的运算开销。
(二)基于安全多方计算的融合隐私保护方案
安全多方计算技术可以在保证每个参与运算数据隐私的同时,完成相应的计算操作。典型算法之一是He等人提出的CPDA(Cluster based Private Data Aggregation),该算法借助于Sheikh等人提出的轻量级安全多方计算方案,针对簇结构下数据融合中的隐私信息进行保护。该算法的实现过程主要包括三个阶段。首先是簇的生成阶段,然后在生成的簇内进行相应的数据交换和计算,最后以簇为单位进行数据融合。其方案的核心是通过节点间的信息交换完成对节点信息的隐私保护。在簇中,每个节点均持有两组数据即私密数据和公共数据,且节点之间两两共享密钥。簇内所有节点将变换后的数据进行两两交换,最后汇聚到簇头后形成一个满秩的方程组,可以通过高斯消元法快速求解获取最后的融合结果。另一种比较有代表性的方案是Jung等人提出的不依赖于信道安全性的隐私保护方案。该方案针对现有技术必须以信道安全为前提来实现密钥分配的问题,考虑到现实应用中信道的不可靠性,提出了两种应对方案。
(三)基于同态加密的融合隐私保护方案
隐私同态技术的特点使得中间节点可以直接对加密后的数据进行融合处理,由于不需要解密就可以进行融合操作,可以有效地保证数据的隐私性。也就是说,基于同态加密技术的融合隐私保护方案既能够保证数据的逐跳融合,又能够保持数据端到端的封装。根据加密密钥的不同类型,现有的隐私同态技术可分为基于对称密钥的隐私同态和基于公钥技术的隐私同态两种类型。
在采用对称密钥的同态加密隐私保护方案中,Girao和Westhoff等人首先提出了能够实现数据端到端封装的数据融合隐私保护方案CDA系列算法。这一系列算法原理基本相同,主要包括以下几个主要的实施步骤:第一步,把传感器节点采集到的数据随机地分成若干部分;第二步,传感器节点将各个部分进行同态加密后上传至融合节点;第三步,加密数据在融合节点上无须解密而直接进行融合;最后,基站节点进行解密得到融合结果。这一算法的主要问题在于各传感器节点与基站共享同一密钥,如果恶意节点捕获了其中一个节点,容易造成其余数据的隐私被非法获取。为了解决该算法存在的这一问题,Castelluccia等人提出了一种基于流密钥的同态加密算法(CMT)。
CMT算法为了增强算法的可靠性需要网络中的各传感器节点在上传加密数据的同时也要上传各自的ID,显然这种ID上传机制会造成通信量的增加。为了进一步降低由于ID传输带来的通信开销,现有文献提出了一种AIE机制,该算法引入了时间变量以减少节点ID的传输开销,但该算法的安全性能较低。同样采用CMT机制的还包括其他文献中提出的SEEDA同态加密算法,该算法要求所有传感器节点都要响应基站节点的查询操作并发送数据,否则将其传送的数据清零。
与对称隐私同态加密算法不同,Steffen等人提出了EC-NS、OU、EC-OC、EC-P和EC-EG五种基于椭圆曲线的公钥同态加密机制,并在加密、解密、加法运算以及带宽方面进行了详尽的性能分析。在其他同类文献中同样提出了基于椭圆曲线的加密算法,该算法通过对密文进行n次加法操作和1次乘法操作来保证数据的安全性。但是该算法只保证了隐私数据的安全性,而基站无法检测融合结果的完整性。Boneh通过添加数字签名的方式使得基站能够检查出融合结果的完整性。在Mykletun和Boneh的算法基础上一种可恢复原始数据的隐私保护算法RCDA被提出,通过该算法,基站不仅可以对节点上传的数据进行完整性判断,而且可以恢复各个传感器节点采集到的原始数据。有学者提出了CDAMA算法,该算法可以实现多个场景多个应用程序同时工作,通过这种算法可以将不同应用程序的密文融合成一个密文,而且基站能够根据相应的密钥提取特定应用程序的明文。
(四)基于数据切片的融合隐私保护方案(www.xing528.com)
该类型方案的核心思想是通过将隐私数据切片后分别沿不同路径进行传输,除非所有切片均被捕获否则入侵者很难还原原始数据。He等人最早提出了针对数据融合隐私保护的数据切片与重组算法SMART,该算法主要包括数据切片算法(Slicing)、分片数据混合算法(Mixing)和融合算法(Aggregating)三个步骤。首先,节点将其感知的隐私数据进行切片,切片数量小于其邻接点个数;然后,将这些切片数据分别发送给随机选取的邻居节点;最后,沿着已有的数据融合树结构逐层向上传递并由中间节点进行数据融合。
随后,He等人在SMART算法的基础上增加了完整性检测机制,并提出了一种改进方案iPDA。iPDA算法对于数据完整性的保证主要依靠两个不相交的数据融合树结构,通过两个融合树采集结果的对比进行数据完整性的检测。由于需要进行大量的分片和交换,这两种方案都存在致命的缺陷即通信量和计算量过高。和SMART类似,Li等人提出了一种用于平衡能量消耗和融合精度的数据切片技术EEHA。通过引入随机数量分片技术用以降低分片数量,并通过增加数据查询机制解决分片机制造成的融合精度降低。针对数据融合精度展开了更为深入的研究,从降低SMART中分片碰撞率以及由于碰撞造成的损失两个角度,分别引入了小数据因子、正负因子、补偿因子、随机分片因子和局部因子等优化因子,分析和实验结果表明这些因子的引入能够在降低通信量、减少能量消耗以及提高融合精度等方面起到显著的作用。
(五)非加密策略下的融合隐私保护方案
和加密技术隐私保护方案不同的是,这一类型的隐私保护不需要对数据进行加解密,而是借助于差分隐私保护的思想对原始数据发布进行隐私保护。差分隐私是针对统计数据库的隐私泄露问题提出的一种新的隐私定义。在此定义下,对数据集的计算处理结果对于具体某个记录的变化是不敏感的。单个记录在数据集中或者不在数据集中,对计算结果的影响微乎其微。所以,一个记录因其加入数据集中所产生的隐私泄露风险被控制在极小的可接受的范围内,攻击者无法通过观察计算结果而获取准确的个体信息。因此,它是一种新的鲁棒性足够好的隐私保护模型,能够在攻击者拥有最大背景知识的条件下抵抗各种形式的攻击。
差分隐私能够解决传统隐私保护模型的两个缺陷。首先,差分隐私保护模型假设攻击者能够获得除目标记录外所有其他记录的信息,这些信息的总和可以理解为攻击者所能掌握的最大背景知识。在这一最大背景知识假设下,差分隐私保护无须考虑攻击者所拥有的任何可能的背景知识。因为这些背景知识不可能提供比最大背景知识更丰富的信息。其次,它建立在坚实的数学基础之上,对隐私保护进行了严格的定义并提供了量化评估方法,使得不同参数处理下的数据集所提供的隐私保护水平具有可比较性。目前差分隐私保护的理论与应用研究主要集中在两个方向,即隐私保护数据发布与隐私保护数据挖掘。由于在数据融合过程中主要涉及数据发布隐私保护,本书将仅对隐私保护数据发布技术的研究进行介绍。
1.基于直方图技术的数据融合隐私保护方法
直方图是一种直观的数据分布表示形式,其结果可作为其他统计查询或线性查询的依据。在差分隐私保护条件下,删除数据集的一条记录只会影响直方图中一个数据格(Bin)的结果,因此计算计数查询以及其他相关查询的敏感度是比较容易的,这使得根据直方图来为各种查询提供差分隐私保护的响应是可行的。在形成直方图时,需要根据属性(或属性组合)的w个不同等级,将数据集划分为w个数据格,然后分别统计每个数据格的频数。为了提供差分隐私保护,一种简单的方法是向w个数据格的频数分别添加独立的Laplace噪声,也称为基于数据格的方法。因为频数统计函数的敏感度仅为1,所以这种方法对于w较小时(例如二维直方图)是有效的。但对于多维直方图而言,多个变量的组合可以形成大量的数据格,这时会使一些范围计数查询(Range Counting Query)的结果因累积噪声过大而失效。
Xiao等人提出了一种基于k-d树的直方图发布算法。算法首先根据给定的数据集及其k个属性产生原始直方图,k-d树算法最终将空间划分为若干个分区,这个划分的结果实际上代表了一种分区方案。最后,以这个分区方案对原始直方图进行分区,并以ε/2的预算向所有分区的实际频数加入噪声并发布。在Xiao等人的后续研究里,这一算法被命名为DP Cube。与基于数据格的方法相比,当参数(频数分布紧密度阈值、空间分割次数)的取值适当时,DP Cube算法在查询数量和查询误差等方面具有更好的性能。由于直方图结构能够降低查询敏感度,所以成为目前差分隐私保护中常用的数据结构,在其基础上进一步进行发布机制的研究是目前差分隐私研究的重要内容之一。
Zhang等人提出了两种不同的融合隐私保护方案,这两种方案都借助于直方图技术对隐私数据进行隐藏,这两种方案都面临着同样的问题即会降低数据融合的精度。陈伟等人提出一种具备完整性验证功能的隐私保护直方图融合算法iPPHA,该算法主要采用直方图融合数据,累加扰动值隐藏真实值,另外构建一棵融合树,用于融合汇总少量的冗余信息,在基站处用冗余信息对数据融合结果进行完整性验证。
2.基于K匿名技术的数据融合隐私保护方案
基于分组的数据发布方法将早期的匿名泛化技术应用到非交互式环境下来实现差分隐私保护。K-anonymity及其衍生模型(如l-dicersity模型和t-closeness模型)属于典型的基于分组的隐私保护方法。研究表明,这些模型对攻击者所掌握的知识假定过少,并不能提供足够的安全保障。但一些学者也认为差分隐私保护对攻击者所掌握的知识假定过多(假定攻击者掌握了数据集中除攻击目标之外所有其他个体的信息),对安全的要求过于严格。Li等人研究了K-anonymity与差分隐私保护模型各自的优缺点,他们认为,通过对原始数据集进行随机抽样,可以增加数据集的不确定性,相当于减少了差分隐私保护中对攻击者所掌握的知识假定,因此提出了一种将K-anonymity模型和差分隐私保护模型结合起来的新方法并称之为“安全K-匿名”模型。
Groat等人提出了基于一种基于K匿名技术的融合隐私保护方案KIPDA。该算法中,首先假设每个节点发送的数据包中有n个数据,其中仅有一个真实数据,其余数据或者是按照一定规则伪造的数据或者是随机生成的伪造数据。然后节点将所有数据按照预先和基站约定好的顺序封装成包发送给基站节点;最后由基站节点负责将真实数据从不同节点发送来的数据包中提取出来。该方案可以支持求最大/最小值的融合操作,而且由于对隐私数据的融合过程不需要进行加解密,使得该方案能够显著降低融合时延。现有文献提出了一种适用于参与式传感网络中多媒体数据的融合隐私保护方案SLICER,该方案工作在应用层,是一种基于编码的K-匿名隐私保护方案。SCLICER方案中将数据编码技术和信息交换策略相结合,能够在实现对参与者隐私信息保护的同时保持较高的数据质量和较低的通信和计算开销。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。