“大数据”概念自诞生就具有模糊性,目前学界还没有统一的认识。但是,大数据像其他概念一样,是人们在对数据的规模、结构、速度不断变化的认识过程中逐渐形成的。
随着人类行为的日趋复杂而规模不断扩张,人们一直坐拥不断增长的海量信息,同时也面临信息保存处理难的社会问题。1944年,美国维思大学藏书楼管理员雷德(Fremont Rider)认为,美国高校藏书楼的规模每16年就会翻一番,图书的数量将超出人们的管理能力。1946年,美国硅图公司(SGI)首席科学家马舍(John Mashey)首次使用了“大数据”(big data)一词。1961年,科学计量学奠基人普赖斯(Derek John de Solla Price)通过研究科技期刊和论文得出,新期刊的数量将以指数形式增长而不是以线性形式增长,每15年翻一番,每50年以10的指数倍增长。1964年,格雷(Harry Gray)和拉斯顿(Henry Ruston)在美国电气与电子工程师协会(IEEE)杂志《电子计算机学报》上发表文章表达了对知识快速增长的担忧,并建议“不发表或发表不超过2 500字的文章以应对信息爆炸时代的到来”。
1975年,日本邮电部实施“信息流普查”计划,其后的调查报告指出,社会正在进入一个新阶段,在这一阶段,处于优势地位的是那些能够满足个人需求的碎片性的、更为详细的信息,而不再是那些传统的被大量复制的、一致性的信息。报告预言了“碎片化信息时代”的到来。1980年,美国社会思想家托夫勒(Alvin Toffler)在《第三次浪潮》中前瞻性地指出,20世纪80年代计算机数据处理能力的大幅度提升将给人类社会带来革命性的影响,并预言说:“如果说IBM公司的主机拉开了信息化革命的大幕,那么‘大数据’(big data)才是第三次浪潮的华彩乐章。”这是首次指出大量的“人工编码信息”将代替自然信息并充斥人们的生活,揭示了大数据概念体量大的特征。
1997年,美国国家航空航天局的研究人员科克斯(Michael Cox)和埃尔斯沃思(David Ellsworth)首次在论文中正式提出大数据的概念及其存储所带来的被称为“大数据问题”的问题。1998年,马舍在一个国际会议报告中指出:随着数据量的快速增长,必将出现数据难理解、难获取、难处理和难组织等4个难题,并用“大数据”来描述这一挑战。“大数据问题”的提出意味着大体量的数据难以用现有的数据库进行管理,难以用现有常规软件进行抓取。“大数据问题”成为数据科学的理论与技术发展的主要推动力。
2001年,高德纳公司分析师兰尼(Douglas Laney)把大数据的特征概括为3个“V”:Volume(数据体量大)、Velocity(处理速度快)、Variety(数据类型繁多),进一步揭示了大数据多样性、多变性的数据特征。2007年,图灵奖获得者格雷(Jim Gray)在美国加利福尼亚州的一次演讲中宣称,大数据将成为人类触摸、理解和逼近现实复杂系统的有效途径,是继实验观测、理论推导和计算仿真等3种科学研究范式后的第四范式——“数据探索”。2008年9月,《自然》杂志推出了名为“大数据”的专栏,“大数据”开始成为互联网行业中的热门词汇。2010年,美国政策分析评论家博利耶(David Bollier)指出,大数据的产生得益于云计算、计算机存储技术、消费终端应用以及一些产生数据流的设备等。他还前瞻性预言:“一种新的知识基础设施正在实现,大数据时代正在出现。”(www.xing528.com)
2011年2月,《科学》杂志专门推出名为“数据处理”(Dealing with data)的专栏,数据的搜集、维护和使用开始成为科学研究的重要方向。2011年5月,麦肯锡公司发布《大数据:下一个创新、竞争和生产力的前沿》,首次谈到大数据的采集与应用,大数据开始走出技术圈进入商业圈。2012年,舍恩伯格出版《大数据时代》一书,开大数据系统研究之先河,大数据概念开始在社会上广泛流行。
互联网、社交网络、电子商务和移动互联网的快速发展,使人类社会的数据量呈现井喷式爆发性增长。据统计,目前人类1年产生的数据相当于人类进入现代化以前产生数据的总和。特别是社交媒体的出现,使这种快餐式碎片化海量信息“数据丰富而信息贫乏”的问题更加突显。中国互联网络信息中心的数据显示,2016年下半年,用社交媒体获取新闻资讯的用户比例高达90.7%,微信、微博参与新闻评论的比例分别为62.8%和50.2%,朋友圈、微信公众号转发新闻的比例分别为43.2%和29.2%。2013年,IBM公司在白皮书《分析:大数据在现实世界中的应用》解析说明会上提出大数据“4 V”理论:即Volume(数据体量大)、Velocity(处理速度快)、Variety(数据类型繁多)、Value(价值密度低)。此后,人们又增加了Veracity(数据准确可靠)、Visualization(可视化)、Complexity(复杂性)等。目前,大家比较公认的是大数据的“4 V”理论。
随着人们对大数据的认识的深化,大数据由1V的认识发展到4 V的认识,逐渐超越了传统的数据概念成为一个崭新的概念,即所涉及的数据量规模巨大到无法通过人工,在合理时间内获取、管理、处理并整理成为人类所能解读的信息。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。