首页 理论教育 利用大数据挖掘预测服刑人员再犯罪

利用大数据挖掘预测服刑人员再犯罪

时间:2023-07-31 理论教育 版权反馈
【摘要】:数据脱敏又称数据漂白、数据去隐私化或数据变形。静态数据脱敏通过对源数据库的克隆来进行脱敏操作,形成目标数据库。

利用大数据挖掘预测服刑人员再犯罪

监狱、强制隔离戒毒所等司法行政单位信息系统后台数据库以及日常办公产生的大量数据涉及国家机密和服刑人员或戒毒人员的个人隐私,基于信息安全的需要,因此在对这些矫正数据进行数据分析和挖掘之前,需要进行脱敏处理。数据脱敏又称数据漂白、数据去隐私化或数据变形。百度百科对数据脱敏的定义为:指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。这样,就可以在开发、测试和其他非生产环境以及外包环境中安全地使用脱敏后的真实数据集。生活中不乏数据脱敏的例子,比如:我们最常见的火车票、电商收货人地址都会对敏感信息做处理,甚至女同志较熟悉的美颜处理功能、有些视频中的马赛克都属于脱敏,收货地址和身份证号数据脱敏处理见图4-1所示。可以看到数据脱敏具有几个关键点:敏感数据、脱敏规则、脱敏架构

1.敏感数据

敏感数据,又称隐私数据,常见的敏感数据有:姓名、身份证号码、地址、电话号码、银行账号、邮箱地址、所属城市、邮编、密码类(如:账户查询密码、取款密码、登录密码等)、组织机构名称、营业执照号码、银行账号、交易日期、交易金额等。监狱服刑人员数据特征可以分为4类特征[11]

(1)个体标识特征,可以显式表明个体身份的特征,比如姓名、身份证号码和手机号码[12]

(2)准标识特征,攻击者可以通过与外部数据表进行链接从而获得个体隐私信息,比如性别、年龄和邮政编码

(3)敏感特征,描述个体隐私的细节信息,需要严格保密的信息,例如:疾病和收入。

(4)与上述无关的其他特征。

随着大数据时代的到来,大数据商业价值的挖掘,用户的精准定位,大数据中蕴藏的巨大商业价值被逐步挖掘出来,但是同时也带来了巨大的挑战。个人行为(比如位置信息、消费行为、网络访问行为)、信息等都是人的隐私,也是我们所关注的一类敏感信息,在大数据价值挖掘的基础上如何保护人的隐私信息,也将是数据脱敏必须解决的难题。

(www.xing528.com)

图4-1 收货地址和身份证号数据脱敏处理

2.脱敏规则

脱敏规则,一般的脱敏规则分类为可恢复与不可恢复两类。

可恢复类,指脱敏后的数据可以通过一定的方式,可以恢复成原来的敏感数据,此类脱敏规则主要指各类加解密算法规则。

不可恢复类,指脱敏后的数据被脱敏的部分使用任何方式都不能恢复出。一般可分为替换算法和生成算法两大类。替换算法即将需要脱敏的部分使用定义好的字符或字符串替换,生成类算法则更复杂一些,要求脱敏后的数据符合逻辑规则,即是“看起来很真实的假数据”。

3.脱敏架构

从架构的角度看,数据脱敏有2种常用架构:动态(On the Fly/Dynamic)数据脱敏架构和静态(Static)数据脱敏架构[13]

(1)动态数据脱敏架构。动态数据脱敏是指数据脱敏规则应用于在将数据从源数据库(生产库)导出到目标数据库(脱敏后数据库)的过程中进行脱敏处理,或者在生产系统产生实际数据的同时,也同步产生用于其他环境的脱敏数据。这种架构有两个好处:脱敏目标库可以获得实时性很高的数据;在生产系统外不存在非脱敏数据,减少安全风险。这种架构产生的问题:脱敏处理会对生产系统产生一定的压力;脱敏策略可定制性不强,一旦投入持续生产就不能调整,否则会影响现有业务;脱敏应用会对源数据库到目标数据库链路安全和稳定性有较高要求。该架构一般都要求脱敏工具和生产库管理软件紧密耦合,限制可用工具的选择范围。

(2)静态数据脱敏架构。静态数据脱敏通过对源数据库的克隆来进行脱敏操作,形成目标数据库。脱敏规则可以在第三方实体上执行,也可以在目标数据库上执行。因为面对的是生产数据的镜像,这种架构可以根据需要调整脱敏规则,灵活性更高;脱敏工具的选择范围也更大;相对动态架构,静态架构对生产系统的压力更小。这种架构的风险是,因为涉及第三方平台或目标数据库存储源数据,安全风险会增加;此架构获取的脱敏数据实时性相对动态架构偏低。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈