首页 理论教育 从数据到内容:大数据的价值转换

从数据到内容:大数据的价值转换

时间:2023-06-05 理论教育 版权反馈
【摘要】:大数据的首要特征是数据的量大。在以前,数据库用二维表结构存储方式就可以储存大量数据,譬如常见的Excel软件中处理的数据,这类数据称为结构化数据。斯坦福大学还提出另外两个V,时效性和变化率。以上特征经过扩展后形成6个“V”,共同刻画出大数据的突出特征。也许大数据的信息量就是“大”,反而更容易让人迷失 痛定思痛,决定返璞归真,从最简单的概念开始梳理思路。

从数据到内容:大数据的价值转换

大数据一词源于英文的“Big Data”一词,如果要追溯大数据作为专业术语最初出处的话,就得从Apache的开源索引擎Nutch说起。当时大数据的意思是更新网络搜索索引,同时还需批量处理和分析大量的数据集。谷歌Map Reduce(映射化简)和GFS(Google File System,谷歌档案系统)发布之后,除了涵盖大数据集之外,大数据的定义还包括数据处理的速度。

Gartner(高德纳咨询公司)曾经围绕3个“V”,给大数据下过这样一个定义:一种基于新的数据处理方式而产生的具有强大的决策力、洞察力以及流程优化能力的高容量(Volume)、高度复杂(Variety)且高速变化(Velocity)的信息资产。

麦肯锡全球研究所发布的《大数据:创新、竞争和生产力的下一个前沿》(James,2011)报告,认为大数据指的是大小规格超越传统数据库软件工具抓取、存储、管理和分析能力的数据群。

IBM概括大数据的特征有3个“V”,也就是大量化(Volume)、多样化(Variety)和快速化(Velocity)。此外,还潜藏着另一个V——高价值(Value)。

大数据的首要特征是数据的量大(Volume)。电脑的数据运算和储存单位都是字节B(byte),1KB(Kilobyte,千字节)等于1024B。除此之外还有更高单位MB(Megabyte,兆字节)、GB(Gigabyte,吉字节)、TB(Terabyte,太字节)、PB(Petabyte,拍字节)、EB(Exabyte,艾字节)、ZB(Zettabyte,泽字节)、YB(Yottabyte,尧字节)和BB(Brontobyte,千亿亿亿字节)。每一级之间的换算关系是1024=2^10(2的10次方)。2015年,全球数据存储已达10ZB。据国际数据公司(IDC)预测,2020年全球数据量将突破44ZB,是2015年的4倍多。因为硬件技术的发展速度远远赶不上数据容量的增长速度,所以产生了数据存储和处理的危机。

海量数据存储危机的产生不仅是由于数据量爆炸性的增长,还有数据类型的改变而带来的多样化。在以前,数据库用二维表结构存储方式就可以储存大量数据,譬如常见的Excel软件中处理的数据,这类数据称为结构化数据。但是随着互联网多媒体应用的出现,声音、图片和视频等非结构化的数据所占比重日益增多。有统计表明,全世界非结构化数据的增长率是63%,相对而言,结构化数据增长率只有32%。

快速化描述的是数据被创建和移动的速度。在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。基于IMS Research关于数据创建速度的调查,据预测,到2020年全球将拥有220亿部互联网连接设备。(www.xing528.com)

高价值,是指大数据中饱含大量的不相关信息,浪里淘沙却又弥足珍贵。如果对用户没有太大的商业、技术或社会价值,这些数据集就没有什么意义。

斯坦福大学还提出另外两个V,时效性(Volatility,数据集在多长时间内有效)和变化率(Variability,不可预测的数据流及其变化程度)。

以上特征经过扩展后形成6个“V”,共同刻画出大数据的突出特征(见图1-1)。

图1-1 大数据的6个“V”

[1] 从各种渠道获得大量信息,以及凭着多年前从事相关专业所习得的知识,笔者自认对大数据有一定了解。但当进一步深入研究该领域时,仍感觉陷入了层层迷雾之中,仿佛再也把握不住大数据的温度和情感。也许大数据的信息量就是“大”,反而更容易让人迷失 痛定思痛,决定返璞归真,从最简单的概念开始梳理思路。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈