通过处理生前在社交网络上留下的信息,逝去的人就可以复活?英国电视剧《黑镜》中就讲述了这样一个高科技故事:玛莎的爱人艾什意外去世,一家公司通过整合分析艾什生前在各种社交媒体上留下的生活信息,重新创造出“艾什”——当然它只是一个人工智能机器人。机器人根据艾什生前的数据信息预测出在特定的环境下,艾什应有的反应,从而玛莎可以像过去一样和艾什一起生活。这个故事放在过去可能看起来比较荒诞,而在将来也许并非不可实现。我们正在经历一个数据不断膨胀的时代,只要我们能找到观察问题的新角度,越来越多的东西都可以数据化,包括人。
如果说《黑镜》中的故事还被称为“科幻”,那么谷歌利用大数据预测流感却已是事实。谷歌的工程师认为,在互联网时代,人们更习惯通过网络搜索来解答各种问题。谷歌每天都会收到来自全球超过几十亿条的搜索指令,汇总这些海量的搜索记录,就可以发现它们指向的问题。2008 年谷歌推出的流感趋势系统就是通过寻找与流感相关的搜索词汇,如“发烧”“咳嗽”,成功地在2009 年甲型H1N1 流感暴发的前几周就预测到了流感在美国国内的传播,甚至具体预测到特定的地区。这一预测令公共卫生官员倍感震惊,由于一些条件的限制,流感病人往往会等到病情比较严重时才去医院就诊,而医院在接收病人之后,又要经过一段时间才能将信息传递给美国疾病控制与预防中心。因此,采用传统方法的疾控中心通常会在流感暴发一两周后才能得到结论。
亚历山大图书馆始建于托勒密一世(约公元前367—前283 年)时期,是世界上最古老的图书馆之一。据说亚历山大图书馆修建之初唯一的目的就是“收集全世界的书”,实现“世界知识总汇”的梦想,历代国王为此采取过各种正常或非常的手段使亚历山大图书馆迅速成为人类早期历史上最伟大的图书馆——据说极盛时期馆藏各类手稿逾50 万卷,被认为收藏了人类的全部知识。而如今,如果把全世界的信息进行均分,那么每个人所拥有的信息量足以超过当年亚历山大图书馆全部藏书的320 倍。
我们周围到底有多少数据?它们增长的速度有多快?许多人试图测量出一个确切的数字。2012 年12 月,国际数据公司(International Data Corporation)发布了研究报告《2020 年的数字宇宙》:2005 年全球产生的数据量为130 EB[1],2008 年为0.49 ZB,2009 年为0.8 ZB,2010 年为1.2 ZB,2011 年为1.82 ZB,2012 年为2.8 ZB,几乎每两年翻一番。这些数据究竟有多大?可能我们无法直观地感受到,百度公司给出了更形象的说法:百度首页导航每天要从超过1.5 PB的数据中进行挖掘,这些数据如果打印出来需要用到超过5 000 亿张A4 纸,把这些纸平铺可以铺满整个海南岛,而如果全部垒叠起来高度将超过40 000 千米。(www.xing528.com)
数据正以惊人的速度不断产生,来看看2015 年国外一家公司展示的各大网站在1 分钟内产生的巨大数据量:YouTube用户每分钟上传300 小时的新视频;Netflix 用户则每分钟观看77 160小时的视频;Apple用户每分钟下载51 000 个应用;亚马逊网站每分钟访问的用户量是4 310 名;Uber 每分钟能获得694 个订单;Facebook 用户每分钟点赞4 166 667 次;Twitter用户每分钟发布347 222 条推文;Tinder用户每分钟浏览590 278 份档案;Snapchat用户每分钟会发布284 722 张照片。我们越来越清晰地认识到,一个新的时代已经到来,我们已经无法避免大数据对我们生活、工作的影响。
大数据一词来源于英文“Big Data”,早在1980 年阿尔文·托夫勒(Alvin Toffler)就在他所著的《第三次浪潮》中使用过大数据一词,并将其赞颂为“第三次浪潮的华彩乐章”。2001年高德纳(Gartner Group)公司的分析师道格拉斯·兰尼(Douglas Laney)首次从大数据特征的角度对其进行了相对明确的定义,他强调大数据必须具备3 V 特征:即体量大(Volume)、多样化(Variety)和速度快(Velocity)。2008 年9 月,《自然》刊登了“Big Data”的专辑,探讨如何研究、利用PB级容量的大数据流。大约从2009 年开始,“大数据”才成为互联网信息技术行业的流行词汇。2012 年1 月,达沃斯世界经济论坛发布了《大数据,大影响:国际发展的新机会》的报告,宣称数据就像货币和黄金一样,已经成为一种新的经济资产,全球进入大数据时代。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。