(1)大数据的定义
根据大数据概念的内涵,并结合业界对大数据特性的普遍认同,赛迪顾问公司提出了以下概念:
定义1 大数据是指需要通过快速获取、处理、分析以从中提取价值的海量、多样化的交易数据、交互数据与传感数据。
定义2 一般意义上,大数据是指无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理和服务的数据集合。
大数据到底有多大?由一组名为“互联网上一天”的数据可知,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量)……
截至2012年,数据量已经从TB(1TB=1024GB)级别跃升到PB(1PB=1024TB)、EB(1EB=1024PB)乃至ZB(1ZB=1024EB)级别。
(2)大数据的5V特征
大量化(Volume):网络空间中数据的体量不断扩大,数据集合的规模已经从GB、TB到了PB,而网络大数据甚至以EB和ZB(1021)等单位来计数。
多样化(Variety):企业内部的经营交易信息,物联网世界中商品、物流信息,互联网世界中人与人交互信息、位置信息等是大数据的主要来源。能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一。语义分析技术、图文转换技术、模式识别技术、地理信息技术等,都会在大数据分析时获得应用。(www.xing528.com)
快速化(Velocity):1s是临界点,对于大数据应用而言,必须要在1s内形成答案,否则处理结果就是过时和无效的。实时处理的要求,是区别大数据引用和传统数据库技术、BI技术的关键差别之一。
价值(Value):挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息。价值密度低,是大数据的一个典型特征。
真实性(Veracity):数据的重要性就在于对决策的支持。数据的规模并不能决定其能否为决策提供帮助,数据的真实性和质量才是获得真知和思路最重要的因素,是制定成功决策的坚实基础。
(3)大数据的构成
大数据包括交易数据集和交互数据集在内的所有数据集。
海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,能了解过去发生了什么。
海量交互数据:由Facebook、Twitter、LinkedIn及其他社交媒体的数据构成。它包括了呼叫详细记录(Calling Detail Records,CDR)、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输(manage file transfer)协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等。这些可以告诉人们未来会发生什么。
海量数据处理:大数据的涌现已经催生了设计用于数据密集型处理的架构,如具有开放源码、在商品硬件群中运行的Apache Hadoop。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。