大数据是待挖掘的金矿,大数据应用已经突显出了巨大的价值,触角已延伸到零售、金融、教育、医疗、体育、制造、影视、政府等各行各业。可以说,谁能掌握和合理利用大数据核心资源,谁就能在接下来的技术变革中占据绝对的优势。
大数据能够帮助企业分析大量数据而进一步挖掘市场机会和细分市场,企业利用用户在互联网上的访问行为分析其偏好,能为每个用户勾勒出一副“用户画像”,为具有相似特征的用户组提供精确服务满足用户需求,甚至为每个客户量身定制。这一变革将大大缩减企业产品与最终用户的沟通成本。大数据能够帮助企业分析大量数据而进一步挖掘细分市场的机会,最终能够缩短企业产品研发时间,提升企业在商业模式、产品和服务上的创新力,大幅提升企业的商业决策水平。因此,大数据有利于企业发掘和开拓新的市场机会;有利于企业将各种资源合理利用到目标市场;有利于制定精准的经销策略;有利于调整市场的营销策略,大大降低企业经营的风险。
大数据从诞生开始就是站在决策的角度出发的,它能够有效地帮助各个行业的用户做出更为准确的决策,从而实现更大的价值。虽然不同行业的业务不同,所产生的数据及其所支撑的管理形态也千差万别,但从数据的获取、数据的整合、数据的加工、数据的综合应用、数据的服务和推广以及数据处理的生命线流程来分析,所有行业的模式是一致的。这种基于大数据决策的特点是:
①量变到质变。由于数据被广泛挖掘,决策所依据的信息完整性越来越高,有信息的理性决策比例在迅速扩大,“拍脑袋”盲目决策的比例在急剧缩小。
②决策技术含量、知识含量大幅度提高。由于云计算的出现,人类没有被海量数据所淹没,而是能够高效处理、生产有价值的决策信息。
③大数据决策催生了很多过去难以想象的重大解决方案。
正确利用大数据给人们的生活带来了极大的便利,但与此同时,大数据与传统数据在规模、格式上迥然不同的特点也给传统数据的管理方式带来了极大的挑战。具体来说,大数据时代下的挑战可总结为以下三方面。
1.大数据集成
数据的广泛存在性使得数据越来越多地散布于不同的数据管理系统中。为了便于进行数据分析,需要进行数据的集成。数据集成看起来并不是一个新的问题,但是大数据时代的数据集成却有了新的需求,因此也面临着新的挑战。
(1)广泛的异构性
传统的数据集成中也会面对数据异构的问题,但是在大数据时代,这种异构性出现了新的变化。主要体现在:
①数据类型从以结构化数据为主转向结构化、半结构化和非结构化三者的融合。
②数据产生方式的多样性带来的数据源变化。传统的电子数据主要产生于服务器或者是个人电脑,这些设备位置相对固定。随着移动终端的快速发展,手机、平板电脑、GPS等产生的数据量呈现爆炸式增长,且产生的数据带有很明显的时空特性。
③数据存储方式的变化。传统数据主要存储在关系数据库中,但越来越多的数据开始采用新的数据存储方式来应对数据爆炸,比如存储在Hadoop的分布式文件系统中。这就必然要求在集成的过程中进行数据转换,而这种转换的过程是非常复杂和难以管理的。
(2)数据质量
数据量大不一定就代表信息量或者数据价值的增大,相反很多时候意味着信息垃圾的泛滥。一方面,很难有单个系统能够容纳下从不同数据源集成的海量数据;另一方面,如果在集成的过程中仅仅简单地将所有数据聚集在一起而不作任何数据清洗,就会使得过多的无用数据干扰后续的数据分析过程。大数据时代的数据清洗过程必须更加谨慎,因为相对细微的有用信息混杂在庞大的数据量中。如果信息清洗的粒度过细,则很容易将有用的信息过滤掉;如果清洗粒度过粗,则又无法达到真正的清洗效果。因此,在质与量之间需要进行仔细的考量和权衡。
2.大数据分析(www.xing528.com)
传统意义上的数据分析主要针对结构化数据展开,且已经形成了一整套行之有效的分析体系。首先利用数据库来存储结构化数据,在此基础上构建数据仓库,根据需要构建数据立方体进行联机分析处理(On-Line Analytical Processing,OLAP),可以进行多个维度的下钻(drill-down)或上卷(roll-up)操作。从数据中提炼更深层次的知识的需求促使数据挖掘技术的产生,并发明了聚类、关联分析等一系列在实践中行之有效的方法。这一整套处理流程在处理相对较少的结构化数据时极为高效。但是随着大数据时代的到来,半结构化和非结构化数据量的迅猛增长,给传统的分析技术带来了巨大的冲击和挑战,主要体现在:
(1)数据处理的实时性(timeliness)
随着时间的流逝,数据中所蕴含的知识价值往往也在衰减,因此很多领域要求对数据进行实时处理。随着大数据时代的到来,更多应用场合的数据分析从离线(offline)转向了在线(online),开始出现实时处理的需求。大数据时代数据的实时处理面临着一些新的挑战,主要体现在数据处理模式的选择及改进。在实时处理的模式选择中主要有三种思路:流处理模式、批处理模式以及二者的融合。虽然已有的研究成果很多,但是仍未有一个通用的大数据实时处理框架。各种工具实现实时处理的方法不一,支持的应用类型都相对有限,这导致实际应用中往往需要根据自己的业务需求和应用场景对现有的这些技术和工具进行改造。
关系数据库中的索引能够加速查询速率,但是传统的数据管理中模式基本不会发生变化,因此在其上构建索引主要考虑的是索引创建、更新等的效率。大数据时代的数据模式随着数据量的不断变化可能会处于不断的变化之中,这就要求索引结构的设计简单、高效,能够在数据模式发生变化时很快地进行调整来适应。在数据模式变更的假设前提下,设计新的索引方案将是大数据时代的主要挑战之一。
(3)先验知识的缺乏
传统分析主要针对结构化数据展开,这些数据在以关系模型进行存储的同时就隐含了这些数据内部关系等先验知识。比如我们知道所要分析的对象会有哪些属性,通过属性我们又能大致了解其可能的取值范围等。这些知识使得我们在进行数据分析之前就已经对数据有了一定的理解。而在面对大数据分析时,一方面是半结构化和非结构化数据的存在,这些数据很难以类似结构化数据的方式构建出其内部的正式关系;另一方面很多数据以流的形式源源不断地到来。对于这些需要实时处理的数据,很难有足够的时间去建立先验知识。
3.大数据隐私问题
隐私问题由来已久,计算机的出现使得越来越多的数据以数字化的形式存储在电脑中,互联网的发展则使数据更加容易产生和传播,因此数据隐私泄露问题越来越严重。
(1)隐性的数据暴露
很多时候人们有意识地将自己的行为隐藏起来,试图达到隐私保护的目的。但是互联网尤其是社交网络的出现,使得人们在不同的地点产生越来越多的数据足迹。这种数据足迹具有累积性和关联性,单个地点的信息可能不会暴露用户的隐私,但是如果有办法将某个人的很多行为从不同的独立的点聚集在一起时,他的隐私就很可能会暴露。这种隐性的数据暴露往往是个人无法预知和控制的。从技术层面来说,可以通过数据抽取和集成来实现用户隐私的获取。而在现实中,通过所谓的“人肉搜索”方式往往能更快速、准确地得到结果。这种“人肉搜索”方式的实质就是“众包”(crowdsourcing)。大数据时代的隐私保护面临着技术和人力层面的双重考验。
(2)数据公开与隐私保护的矛盾
如果仅仅为了保护隐私就将所有的数据都加以隐藏,那么数据的价值将无法体现。数据公开是非常有必要的,政府可以从公开的数据中来了解整个国民经济社会的运行,以便更好地指导社会的运转;企业则可以从公开的数据中了解客户的行为,从而推出针对性的产品和服务,使其利益最大化;研究者则可以利用公开的数据,从社会、经济、技术等不同的角度来进行研究。因此大数据时代的隐私性主要体现在不暴露用户敏感信息的前提下进行有效的数据挖掘,这有别于在传统信息安全领域更加关注文件的私密性等安全属性。统计数据库数据研究中最早开展的就是数据隐私性技术方面的研究,近年来逐渐成为相关领域的研究热点。
(3)数据动态性
大数据时代数据的快速变化除了要求有新的数据处理技术应对之外,也给隐私保护带来了新的挑战。现有隐私保护技术主要基于静态数据集,而在现实中数据模式和数据内容时刻都在发生着变化。因此在这种更加复杂的环境下实现对动态数据的利用和隐私保护将更具挑战。
大数据以及相关的分析处理技术是一把双刃剑,合理使用可以服务企业、政府和社会,为人们的生活带来便利,提高社会运行效率;然而使用不当则会变成巨大的灾难。因此,为了更好地利用大数据服务社会,造福民众,要搭建面向全社会开放合作、互动创新的大数据技术体系和产业生态,充分挖掘大数据的潜力,同时加快完善大数据安全保障机制和能力,让大数据发展有章可循,有法可依。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。