1)大数据的定义
“大数据(big data)指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内进行截取、管理、处理,并整理成为人类所能解读的信息。”[2]工业和信息化部电信研究院在其公布的《大数据白皮书(2014)》中对大数据的定义如下:“大数据是具有体量大、结构多样、时效强等特征的数据;处理大数据需采用新型计算架构和智能算法等新技术;大数据的应用强调以新的理念应用于辅助决策、发现新的知识,更强调在线闭环的业务流程优化。”[3]
大数据的发展历程:大数据是在互联网快速发展中诞生的,起点是2000年前后互联网网页出现爆发式增长,每天产生大量新的互联网信息。大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集,这是大数据的起点[3]。到后来,大数据的含义不仅仅是指大量的数据,还包含了对这些数据进行处理的速度。在技术上,很关键的一点是:大数据是一定时期内收集的数据集,这些数据庞大而且复杂,以非结构化数据为主,几乎无法使用大多数数据库管理工具和传统的数据处理应用程序来进行管理和处理。但是随着Google陆续公开其技术“三宝”[Map Reduce(用于大规模数据集并行运算的编程模型)、GFS (面向大规模数据密集型应用的、可伸缩的分布式文件系统)和Big Table(一种用来处理海量的数据的非关系型分布式数据存储系统)],大数据在技术上以较低成本实现了之前技术无法达到的规模,奠定了大数据技术的基础。
“大数据”一词最早出现在阿尔文·托夫勒(Alvin Toffler)于1980年出版的《第三次浪潮》一书中。这位未来学大师、世界著名未来学家,热情地将大数据赞颂为“第三次浪潮的华彩乐章”。但是大数据一直没受到关注,直到近几年,随着数据的爆炸式增长,才得到应有的重视。美国互联网数据中心(Internet Data Center, IDC)指出:“互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。”
大数据的“数据”不仅指互联网上各种活动所产生的信息数据,还包括装配在全世界的工业设备、仪器电表及遍布地球各个角落的各种各样的传感器测量和传递的位置、温度、光线强度、天气数据、空气质量变化等数据。这些传感器不停地产生并传递着数据,使这些数据里蕴含的信息能够被人类获取并带来价值。移动设备、可穿戴设备、互联网、物联网、车联网及云计算,无一不是数据来源或者承载的方式。例如射频识别(radio frequency identification, RFID)、传感器网络、智能家居;呼叫记录、短信记录、医疗记录;生物学、基因组学、化学、天文学、大气科学,以及其他复杂的或跨学科的科研领域;互联网文本和文件、搜索索引、博客、日志和大规模的电子商务数据等。
2)大数据的特点
大数据的特点常用4个“V”来体现,即大量(volume)、高速(velocity)、多样(variety)和价值(value)。这4个“V”代表着以下四个层面:
(1)数据的体量和规模巨大。从TB级,跃升到PB级甚至EB级。(www.xing528.com)
(2)数据类型繁多。不仅是数据量的爆炸性增长,还涉及数据类型的改变。例如前文提到的传感器数据、呼叫记录、互联网信息等。
(3)处理速度快。从各种类型的数据中快速获取信息。
(4)价值回报高。合理利用数据,对其进行正确、准确的分析,可以从数据中得到很高的价值回报。
3)大数据的意义
大数据的意义和关键不在于信息的收集,而在于如何对这些数据进行分析挖掘,从这些收集到的含有意义的数据中最终获得实际的价值。
随着互联网的兴起,像大数据这种针对海量数据的处理技术很快在众多行业领域得到了大范围的应用,并取得了巨大的成功。在电子商务领域,大数据技术可以用于定向投放广告和智能推荐;在金融领域,企业可以应用大数据技术来做基于客户行为分析的大数据营销和供应链管理,满足管理者的分析决策及定位预测的需求,从而进行风险预测;在医疗领域,提高医疗和研发质量,优化机器和设备性能;在公共安全领域,大数据技术可用于改善执法和打击犯罪;在交通领域,可以基于城市实时交通信息利用社交网络和天气数据来优化最新的交通情况等。这些应用取得的成功启发全社会开始重新审视数据的巨大价值。
从技术上来看,大数据和云计算一直是密不可分的。大数据在从数据源获取并经过分析挖掘到最终获得价值的过程中面临着一系列的挑战,其中包括数据的准备、存储与管理、计算处理、数据分析和可视化展现。这些挑战促使大数据与云计算相互搭配,共同完成整个流程。大数据有着庞大的数据量,而且对处理速度有较高的要求,无法只用单台的计算机进行处理,必须采用分布式架构,对海量数据进行分布式数据挖掘。依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术,这些海量非结构化数据和半结构化数据,可以通过使用类似于Map Reduce的框架向较大规模的计算机集群分配工作,进行实时的大型数据集分析,使用大规模并行处理(massively parallel processing, MPP)数据库、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统等技术,在用户所能容忍的时间内有效地处理大量数据。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。