大数据概念的起源可以追溯到20世纪40年代。当时,图书情报学界、自然科学界、计算机学界、统计学界对“信息爆炸”现象讨论较多。20世纪70年代,随着计算机技术日益革新,信息大多以数字形式被存储和处理,大量数据成为当时的热点问题之一,针对大量数据处理分析的研究也快速升温。20世纪90年代开始,大数据作为专有名词出现在学术论文中,基础理论出现了重大突破,相关技术也不断创新。21世纪初,大数据价值逐渐被业界发现。当前,大数据创新重点从理论创新、技术创新转移到了应用创新上,而应用创新的落地又要与具体行业领域的需求特点相结合。尤其是在信息化程度较高的服务行业,如零售、金融、医疗、教育等,大量数据的出现不得不让人们花费巨大成本来解决大数据问题,而对大数据的开发利用又会在这些行业领域中创造出新的市场需求和新的商业模式,从而推动行业自身的转型与发展。
在展望大数据创新的同时,也需要注意到:安全和隐私问题因数据规模、种类和速度的增加而放大。大数据的种种特性,如基于大规模云基础设施部署、数据源和格式的多样性、数据采集采用流媒体方式以及大量的数据跨地域流动,都会创造独特的安全漏洞。因此,大量数据的存在正在产生新的安全挑战。当前,大数据应用的开放式创新使得大量数据获取渠道及方式有了重大的变化。原先,大量数据仅存在于政府、大型企业和重要科研单位等组织中,这些组织能够负担得起存储和处理这些数据的基础设施,并且这些基础设施通常是独占的,与公共网络隔离。如今,通过公有云基础架构,大数据可以随时随地被大中小组织获取。例如,Hadoop等软件基础架构使开发人员能够轻松利用数千个计算节点来执行数据并行计算。结合从公有云提供商处按需购买计算能力,此类开发大大提高了大数据挖掘方法的采用率。因此,大数据与公有云环境的耦合产生了新的安全挑战,其特征在于商用硬件与商用操作系统的异构组合,以及用于存储和计算数据的商用软件的基础架构。随着大数据通过流媒体云技术的扩展,为防火墙和半隔离网络上的小规模静态数据量身定制的传统安全机制已不能满足需求。例如,异常检测的分析会产生太多的异常值。同样,目前还不清楚如何对现有的云基础设施进行改造,以满足流数据超快响应时间的安全需要和隐私解决方案。
2013年,云安全联盟(Cloud Security Alliance)提出了大数据安全和隐私的十大挑战,涉及大数据生态系统的四个方面,包括:基础设施安全、个人数据隐私、数据管理以及数据完整性和安全响应(图8-1)。
在基础设施安全中,涉及分布式编程框架和非关系型数据存储的安全保护;在个人数据隐私方面,包括可扩展和可组合的隐私保护分析,并且必须通过使用加密和细粒度访问控制来保护敏感数据;大规模数据管理需要可扩展的分布式解决方案,以确保数据存储和事务日志的安全,并实现细粒度审计和数据溯源;在数据完整性和安全响应方面,包括终端输入验证/过滤和安全/合规性实时监控,以确保大数据系统的健康。此外,大数据风险不仅涉及技术性问题,还涉及伦理、制度等。随着数据的流动、新数据的产生以及数据结构的重新设计,原本仅涉及一种类型的风险也会变为涉及多种类型的风险或转为其他类型的风险。
(www.xing528.com)
图8-1 大数据安全风险
图情大数据是图情领域的数据“大爆炸”,随之也会产生图情大数据的风险问题。同样,参照云安全联盟提出的模型,图情大数据风险包括基础设施安全、个人隐私安全、图情数据管理以及图情数据完整性和安全响应。结合图情领域的具体情况,图情大数据风险管理的对象是数据风险,风险管理的主体是政府管理部门、图情机构、企业和用户,主要存在的风险问题包括:馆藏数据和用户数据两种数据集合的风险;数据在采集、存储、开发、共享和使用中的风险;数据在机构和用户之间流动中的风险;数据在各利益相关方行使权利和承担责任中的风险(图8-2)。
图8-2 图情大数据的流动
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。