大数据本身是一个比较抽象的概念,单从字面来看,它表示数据规模的庞大。但是仅仅数量上的庞大显然无法看出大数据这一概念和以往的“海量数据”(massive data)、“超大规模数据”(very large data)等概念之间的区别。对于大数据尚未有一个公认的定义,不同的定义基本是从大数据的特征出发,通过这些特征的阐述和归纳试图给出其定义。在这些定义中,比较有代表性的是3V定义,即认为大数据需满足3个特点:规模性(volume)、多样性(variety)和高速性(velocity)。除此之外,还有提出4V定义的,即尝试在3V的基础上增加一个新的特性。关于第4个V的说法并不统一,国际数据公司(International Data Corporation,IDC)认为大数据还应当具有价值性(value)。大数据的价值往往呈现出稀疏性的特点。而IBM认为大数据必然具有真实性(veracity)。维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。研究机构Gartner给出了这样的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
目前工业界普遍认为大数据具有以下特征:
(1)规模性(volume)
规模性也称数据体量巨大。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十太字节(TeraByte,Trillion byte,TB,1TB=1024GB,即万亿字节)到数拍字节,即千万亿字节(Petabyte,PT,1PT=1024TB)不等。各方研究者虽然对大数据量的统计和预测结果并不完全相同,但一致认为数据量将急剧增长。
(2)多样性(variety)
多样性即数据类型多样。从生成类型上可分为交易数据、交互数据、传感数据;从数据来源上可分为社交媒体数据、传感器数据、系统数据;从数据格式上可分为文本、图片、音频、视频、光谱等;从数据关系上可分为结构化、半结构化、非结构化数据;从数据所有者可分为公司数据、政府数据、社会数据等。
(3)高速性(velocity)
数据的增长速度快,以及要求数据访问、处理、交付等速度快。数据创建、处理和分析的速度持续加快,其原因是数据创建的实时性属性,以及需要将流数据结合到业务流程和决策过程中的要求。速度影响数据时延——从数据创建或获取到数据可以访问的时间差。目前,数据以传统系统不可能达到的速度产生、获取、存储和分析。在对时间敏感的流程中,对某些类型的数据必须实时地分析,以对业务产生价值。(https://www.xing528.com)
(4)价值性(value)
大数据价值巨大。大数据能够通过规模效应将低价值密度的数据整合为高价值、作用巨大的信息资产。如美国社交网站Facebook有十几亿用户,网站对这些用户信息进行分析后,广告商可根据结果精准投放广告。对广告商而言,这些用户的数据价值上千亿美元。
(5)易变性(variability)
大数据具有多层结构。弗雷斯特研究公司(Forrester Research)分析师布赖恩·霍普金(Brian Hopkins)和鲍里斯·埃韦尔松(Boris Evelson)指出,大数据具有多层结构,这意味着大数据会呈现出多变的形式和类型。相对比传统的业务数据,大数据存在不规则和模糊不清的特性,造成很难甚至无法使用传统的应用软件进行分析。
(6)准确性(veracity)
准确性也称真实性,包括可信性、真伪性、来源/信誉的有效性和可审计性等子特征。一方面,对于网络环境下如此大量的数据需要采取措施确保其真实性、客观性,这是大数据技术与业务发展的迫切需求;另一方面,通过大数据分析,真实地还原和预测事物的本来面目也是大数据未来发展的趋势。IBM商业价值研究院在发布的《分析:大数据在现实世界中的应用》报告中指出,追求高数据质量是一项重要的大数据要求和挑战。但是,即使最优秀的数据清理方法也无法消除某些数据固有的不可预测性,例如天气、经济或者客户最终的购买决定。不确定性的确认和规划的需求是大数据的一个维度,这是随着高层管理者需要更好地了解围绕在他们身边的不确定性而引入的维度。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
