为什么叫大数据而不叫大信息?这是一个很难回答的问题,涉及哲学和语言学,超出了我们的能力。我们只能朴素地做一些解释,“CPI为6.9”是数据,如果你读懂了,你就获得信息“经济处在高通胀状态”;如果没有读懂,就没有获得信息。就是说数据是放在那里的,对于读懂的人来说,数据就是信息,对于没有读懂的人来说,只是数据不是信息。又如,随意键入一串字符“82化吖或7辅鄂9莪日2”就没有信息,但它是数据。另外,信息的大小还难以衡量,但数据可以衡量大小。现在讲大数据而不是大信息,是指数据规模确实很大,但并不意味着信息很多(或很大),有些非常大的数据集可能没有什么信息,即大数据里可能没有大信息。所谓大数据“低价值密度”的特点也是说明这一点。例如,我们用一台监控设备对着墙不停地录像,就会形成大量的数据,但没有什么用。
这小节关于大数据的讨论主要来自朱扬勇和熊赟的文章“大数据是数据、技术,还是应用”[4]。
1)一些关于大数据的定义
大数据的概念目前还没有一个统一的定义,有下列一些大数据的定义。
(1)Michael Cox和David Ellsworth在1997年提出“大数据”术语时指出“数据大到内存、本地磁盘甚至远程磁盘都不能处理,这类数据可视化的问题称为大数据”[5]。
(2)维基百科的定义[6]:大数据是一个复杂而庞大的数据集,以至于很难用现有的数据库管理系统和其他数据处理技术来采集、存储、查找、共享、传送、分析和可视化。
(3)4V定义[7,8]:大数据为具有4V特征的数据集。4V特征是指:①价值(value),数据价值巨大但价值密度低;②时效(velocity),数据处理分析要在希望的时间内完成;③多样(variety),数据来源和形式都是多样的;④大量(volume),就目前技术而言,数据量要达到PB级别以上。
(4)香山科学会议定义[9]:2013年5月召开的第462次香山科学会议给出了技术型和非技术型两个定义:
①技术型定义是:大数据是来源多样、类型多样、大而复杂、具有潜在价值,但难以在期望的时间内处理和分析的数据集。
②非技术型定义是:大数据是数字化生存时代的新型战略资源,是驱动创新的重要因素,正在改变人类的生产和生活方式。
2)关于4V表述的讨论
大数据的4V描述是影响最广泛的,但在具体理解和具体问题面前,也引起了很多争论。例如,常常会争论一个数据集是不是大数据?即够不够大,是否达到了PB级别。显然这只是问题的表面。问题的核心是:一个数据集有没有价值?值不值得去挖掘?能不能够挖掘出价值?能不能够在希望的时间内挖掘出价值?因此,价值和时效才是大数据的核心内涵,是必需的。
(1)关于价值。如果一个数据集没有价值,就不需要关注;如果一个数据集的价值密度高,即大部分数据都是有价值的,直接读取数据集就能获得价值,没有技术难度。正是因为价值巨大但价值密度低,像大海捞针,所以大数据挖掘是一个很难的技术挑战。
(2)关于时效。所有的大数据处理和分析都应该在希望的时间做完,如果过了希望的时间,就没有意义了,这也是一个技术问题。从理论上讲,在摩尔定律的作用下,随着计算机本身的发展,这个问题可以自然解决,但也会面临更大的数据使之无法解决。(www.xing528.com)
这样,所谓大数据,核心只有两个V(价值value和时效velocity)。给定一个大数据,当没有技术能够在希望的时间内挖掘其价值,那么大数据是一个技术挑战,否则就是一个大数据应用。需要注意的是,一个大数据应用可能会转化成大数据的技术挑战。例如,无人驾驶汽车在道路上行驶时,会获取汽车自身的工作数据(行驶速度、油量、引擎工作状态等)、实时路况数据、道路管理数据(红绿灯、限速等),并分析这些数据,快速做出驾驶判断。当汽车时速小于50 km/h时,发现50 m外车道上有行人后,经过2 s的数据分析得出需要刹车的结论是可以接受的;但当车速提高到100 km/h时,数据分析的时间就得小于1 s,就由一个大数据应用变成一个大数据挑战了。
这些定义最大的问题是“当前技术难以(所不能)处理的”。问题是:当技术改进了,能够处理了,还是不是大数据?于是,一个典型的矛盾现象出现:“技术领域说大数据是当前技术所不能解决的数据集,而应用领域却给出了大量关于大数据成功应用的案例”。这是对大数据的谬误。
大数据谬误:大数据是当前技术难以(所不能)处理的数据集,那么所有能够被处理的数据集都不是大数据,所以没有大数据的成功应用。即“大数据都不能被处理,能够处理的都不是大数据”,或者“大数据都不能用,能用的都不是大数据”。
另外一个现象是大数据之争,即常常有各种领域的人在一起争论什么是大数据。由于技术领域和非技术领域对大数据的不同理解,这两个领域谈论的对象其实是不同的,技术领域说的大数据是指大数据技术,而应用领域说的大数据是指大数据应用。事实上,经过长期信息化建设,几乎所有的行业和单位都积累了庞大的数据资源,所以数据和基于数据的应用涉及几乎所有的人。可以将大数据人群分成三类:有大数据的人群、做大数据的人群和用大数据的人群。很多时候大家在谈论大数据的时候,实际上是在谈论不同的东西,即有大数据的人谈论数据资源及其规模、做大数据的人谈论大数据带来的技术挑战、用大数据的人则谈论大数据带来的决策变革,即三类人群谈论的是不同的大数据概念。
大数据之争:大数据是数据、技术,还是应用?
3)大数据定义
出现大数据谬误和大数据之争的现象源于大数据概念不清晰,需要一个清晰的定义来避免这些现象的发生。
上述定义可以看出:首先,所有的定义都谈到了数据,一个庞大的数据集;其次,技术方面强调了大数据是当前技术所不能的,这里的“不能”是指“不能在希望的时间内”做到,是技术问题;第三,大数据是用来解决决策应用问题的,是一个基于数据集和数据技术的决策应用,改变着生产和生活中的决策方式。因此,数据、技术和应用是大数据的三个要素,数据隐含价值,技术发现价值,应用实现价值。
那么,应该如何来定义大数据呢?
首先,不能把一个技术挑战定义为大数据,否则,一旦技术挑战解决了,就不是大数据了;另外,挑战本身不是一个事物,不能命名。其次,也不能把一个数据集定义为大数据,数据集本身只是隐含价值,不能直接发挥作用。最后,更不能将一个数据应用定义为大数据,那样会导致所有的基于数据的系统都是大数据。可以定义大数据如下:
(1)大数据:是指为决策问题提供服务的大数据集、大数据技术和大数据应用的总称。其中,大数据集是指一个决策问题所用到的所有可能的数据,通常数据量巨大、来源多样、类型多样;大数据技术是指大数据资源获取、存储管理、挖掘分析、可视展现等技术;大数据应用是指用大数据集和大数据技术来支持决策活动,是新的决策方法。
一个大数据是否能为一个决策问题提供服务的关键是:是否能在决策希望的时间内有效完成所有的任务。由于数据增长的速度远快于技术进步的速度,因此就出现大数据问题。
(2)大数据问题:是指不能用当前技术在决策希望的时间内处理分析的数据资源开发利用问题。大数据问题的关键技术挑战在于:①找到隐含在低价值密度数据资源中的价值;②在希望的时间内完成所有的任务。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。