众所周知,2009年出现了一种甲型H1N1流感病毒,全球担心可能会暴发大规模流感,必须提前防范和预测流感发生源。维克托在其著作《大数据时代》中介绍谷歌有一个可以预测流感趋势的模型,它通过跟踪用户搜索词相关数据来判断全美地区的流感情况(比如患者会搜索流感两个字)。其工作原理大致是这样的:设计人员置入了一些关键词(比如温度计、流感症状、肌肉疼痛、胸闷等),只要用户输入这些关键词,系统就会展开跟踪分析,创建地区流感图表和流感地图。因为患者一旦自觉有流感症状,在上网搜索和去医院就诊这两件事上,他通常会选择前者。大数据技术对于健康服务产业和流行病专家来说是非常有用的,因为它的时效性极强,能够帮助人们跟踪和处理疾病的暴发。所以,2009年甲型H1N1流感暴发的时候,与习惯性滞后的官方数据相比,谷歌成为一个更有效、更及时的指示器。谷歌的方法不需要和医生联系确认,而是建立在大数据基础上的,是一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务。
早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据赞颂为“第三次浪潮的华彩乐章”。不过,大约从2009年开始,大数据才成为互联网信息技术行业的流行词汇。2012年3月22日,美国政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战略。美国政府甚至将大数据定义为“未来的新石油”。2013年5月10日,阿里巴巴集团董事局主席马云在淘宝十周年晚会上做卸任前的演讲,马云说,大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。
(一)大数据内涵
1.大数据概念。
对于“大数据”这样的新生名词,国际上还没有统一的定义。2019年,我国科学出版社出版的《图书馆·情报与文献学名词》做了这样的定义:大数据是具有数量巨大、变化速度快、类型多样和价值密度低等主要特征的数据,是一种具有重要战略意义的信息资源。大数据是随着数据生产方式的变化发展而出现的,无法使用传统流程或工具进行分析处理。大数据的重要应用领域之一是发现规律和预测未来。
2.大数据特点。
物联网、云计算、移动互联网、车联网、手机、平板、计算机以及遍布地球各个角落的各种各样的传感器,无一不是大数据的来源。大数据与过去的海量数据有所区别,其基本特征可以用4V来总结(volume、variety、value和velocity),即体量大、多样性、价值密度低、速度快。
(1)数据体量巨大。非结构化数据超大规模和快速增长,从TB级别,跃升到PB级别。计算机最小基本单位是Byte,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、NB、DB,它们按照进率1024(2的10次方)来计算。
(2)数据类型繁多。大数据的异构和多样性,如网络日志、视频、图片、地理位置信息,等等。
(3)价值密度低。以视频为例,在连续不间断监控过程中,可能有用的数据仅仅有一两秒,需要进行深度复杂分析。
(4)处理速度快。实时分析而不是批量分析,注重事前立竿见影而非事后见效。这一点也是区别于传统的数据挖掘技术的本质特点。
(二)大数据分析技术
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。
1.可视化分析(analytic visualizations)
数据可视化无论对于普通用户还是对于数据分析专家,都是最基本的功能。可视化分析能够直观地呈现大数据特点,同时能够非常容易地被读者接受。
2.数据挖掘算法(data mining algorithms)
图像化是将机器语言翻译给人看,而数据挖掘就是机器的母语。各种数据挖掘的算法基于不同的数据类型和格式才能更加科学地呈现出数据本身具备的特点,也正是这些被全世界统计学家公认的统计方法让我们能精炼数据、挖掘数据价值。这些算法一定要能够应付大数据的量,同时还具有很高的处理速度。
3.预测分析能力(predictive analytic capabilities)
数据挖掘可以让分析人员对数据承载信息更快更好地消化理解,从大数据中挖掘出特点,建立科学模型,进而提升判断的准确性。预测性分析可以让我们根据图像化分析和数据挖掘的结果做出一些前瞻性判断。(www.xing528.com)
4.语义引擎(semantic engines)
非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统地去分析、提炼数据。语义引擎需要引入人工智能以从数据中主动地提取信息。
5.数据质量和数据管理(data quality and master data management)
大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究领域还是在商业应用领域,都能够保证分析结果的真实性。
(三)大数据发展与应对
事实上,全球互联网巨头都已意识到了大数据时代,意识到了数据的重要意义。包括EMC、惠普、IBM、微软在内的全球IT巨头纷纷通过收购大数据相关厂商来实现技术整合,亦可见其对大数据的重视。
借着大数据时代的热潮,微软公司生产了一款数据驱动的软件,可以为工程建设节约资源提高效率。这款软件通过跟踪取暖器、空调、风扇以及灯光等积累下来的超大量数据,捕捉如何杜绝能源浪费的信息。专注于智能建筑的微软史密斯研究团队表示:“给我提供一些数据,我就能做一些改变。如果给我提供所有数据,我就能拯救世界。”
在2011年12月8日工信部发布的物联网“十二五”规划上,信息处理技术作为四项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。另外三项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,都与大数据密切相关。
相关链接
配送信息管理的发展历程
1.人工阶段。
人工阶段包括人工制表、人工数字汇总、人工转账、简单管理。
2.计算机化阶段。
计算机化阶段包括作业、报表单据的合理化、标准化,计算机制表和汇总统计,计算机过账,计算机提供各项管理报表,计算机相互独立并建立各自数据库。
3.自动化信息集成阶段。
自动化信息集成阶段包括计算机软硬件集成;建立数据库管理系统;计算机在不同作业系统中自动转账;计算机统计分析并制定各种决策;配送中心各系统对外联网接收、储存外来数据,进行数据转换并将数据输出。
4.智能化信息集成阶段。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。