首页 理论教育 大数据应用:谷歌拼写检查系统和全球脉动计划

大数据应用:谷歌拼写检查系统和全球脉动计划

时间:2023-06-03 理论教育 版权反馈
【摘要】:目前,大数据的起步容量在一艾字节左右。首先,他们积累了大量的拼写数据,包括常见的首次输入短语、常见的拼写错误以及常见的更正拼写方式。利用这些数据,谷歌开发了世界上最全面的拼写检查系统。联合国主导的大数据计划“全球脉动”则通过监测社交网络的使用情况来预测发展中国家的变化并提示诸如食品短缺、洪涝和内战等重要事件。

大数据应用:谷歌拼写检查系统和全球脉动计划

Big Data

互联网是一台自我复制的数据机器,承载着不断增长的海量数据。明智的人已经开始忘掉什么是艾字节[7]、什么是泽字节[8],而是以美国“伟大国家”的精神谈论“大数据”。如果有人问“大数据有多大”的时候,他们会回答“足够大”。目前,大数据的起步容量在一艾字节左右。数据量大小固然重要,但评判时更关键的是要看不同类数据边界的性质,可能出现的信息关联数量以及对新型数据管理工具的需求程度。

对新型数据管理工具的需求最初来自于天文学和气象系统,随后是金融市场,这些领域不仅依赖于大规模变量之间多维度的交互关系,同时,它们的用户大多也不是行业专家,因此需要更简单的管理工具和通俗易懂的数据可视化概览。第二类用户群是互联网公司,这些公司的业务完全在互联网上运营,他们没有任何砖头瓦块形态的实体资产,更未曾继承过任何实物贸易的知识经验,它们只关心人们在互联网上的行为方式。

任何人只要登录互联网,就会留下数字印迹。每次点击网页,发送邮件,使用搜索引擎,在线购票或是访问社交网络,我们都会留下“足迹”。只要打开智能手机,就相当于公开了自己的位置。聚沙成塔,这些印迹汇成一种能够映射我们生活的“影子经济”。不过从很多方面看,它都不能算是影子经济,而是另一种平行经济,和看得见摸得着的实体经济一样真实。

多年来,互联网公司一直在收集这种用户数据,但除了将其用于让自己企业关心的社交、搜索和电商业务更方便之外,并没有对这些数据进行更深层次的应用。如今,这些公司开始研究如何更有想象力地利用这些数据。它们聘请年轻聪颖的数学系毕业生,他们因出众的量化分析、开发算法、归纳数据和分析数据关系的能力而被亲切地称为“宽客”(Quants[9])。

这些公司很快就意识到,自己正坐在一座独特的金矿之上。它们无须去那些偏僻的地方开采昂贵的矿石,而只需坐在家里,顾客就能免费地将黄金送上门来。

大数据的精髓是:一切都是数据或运算。数据是黄金,而运算就是铁镐和铁锨。

举个例子,当我们输入一条搜索请求时,搜索引擎会将文字简化为数据,并将这些信息存入数据库。只掌握某个人的搜索内容意义并不大,但是如果通过对大量搜索内容进行分析和比对,并对其进行归纳分类,就能看到结果。

2009年,谷歌的一位名叫克莉·康拉德(Corrie Conrad)的工程师发现,依据美国医疗服务机构提供的信息,依据用户在搜索医疗信息中所使用的关键词来预测和映射流感爆发趋势和范围,比美国的医疗机构更有效,也更准确。于是她编写了一种算法,通过这种算法,可以将数据进行精炼,后来她成功将其推广到一线的医疗服务机构和制药企业。

此后,谷歌便开始着手对人们搜索的关键词进行研究。首先,他们积累了大量的拼写数据,包括常见的首次输入短语、常见的拼写错误以及常见的更正拼写方式。利用这些数据,谷歌开发了世界上最全面的拼写检查系统。它不需要掌握所有语言,不需要了解各语言的怪癖和例外,而只需将新出现的拼写与其他已有拼写进行对比(包括后者的错误和修正),计算出误差,就可以获得想要的拼写结果。实现这些的成本极低。对谷歌来说,这是一项再普通不过的业务。

谷歌公司利用同样的原理,通过比对分析数十万份联合国欧盟的文件,开发出了一种翻译算法。此前的翻译系统大多是通过尝试去理解语法和行文的规则来进行翻译,但也因为这个原因这些翻译算法都很难成功。而谷歌的翻译算法不需要理解语法规则,只需要分析人们的行为。这样就把一个社会语言学问题巧妙地转变为一个数学问题。

记者加里·沃尔夫(Gary Wolf)对那些靠数字进行判断,并用数据来“量化”生活质量的人很有兴趣,他称之为“量化自我”(Quantified Self)。他写道:(www.xing528.com)

睡眠、锻炼、性、三餐、情绪、地点、清醒程度、工作效率乃至精神上的幸福感现在都可以进行数据化的计量、追踪、共享及展示。尽管社会学家可以从宏观数量层面对我们进行调查研究,实验室心理学家可以用更巧妙的办法——志愿者来获取我们的资料,但是我们在吃饭、玩耍、交谈和恋爱时真实情况却无法追踪,直到几年前仍是如此。随后的四件事情带来了改变。第一,电子传感器变得更小了,性能也更优异;第二,人们开始携带强大的计算设备,通常是手机;第三,社交媒体让分享成为常态;第四,我们开始逐渐意识到一种叫做“云”的全球超级智能正在崛起。

这些数据流可以被应用于各种意想不到的领域。发生自然灾害的时候,比如2010年的海地地震,被困者甚至不需要讲话,也不必挪动位置,就可以通过智能手机产生的数据,把自己的位置和状态信息告诉救援人员。联合国主导的大数据计划“全球脉动”(Global Pulse)则通过监测社交网络的使用情况来预测发展中国家的变化并提示诸如食品短缺、洪涝和内战等重要事件。在人工监测失败后,中情局背景的帕兰提尔科技公司(Palantir Technologies 该公司名称碰巧也来自托尔金的《指环王》)采用了通过分析人物、地点和事件间的关联的方式来发现恐怖分子。

不过使用数据算法也有一定的风险。任何一种基于计算规则的设备,都存在失控的可能性。亚马逊曾经遇到这种情况,两家图书销售商Profnath和Bordeebook的算法出现了异常,将同一本书的价格飙高到 23 698 655.93 美元附加3.99美元的运费。系统错乱背后的具体的原因人们虽然还不清楚,但初步看来应该是Profnath的算法想要抢下这本书的最低价,但是同时可能是缺货的原因,Bordeebook的算法反而在抬高价格。好在是毫无意外这本书没人下单,所以也没造成什么损失。

在金融交易中,类似的问题即使能很快被发现,往往也会造成严重的损失。2010年5月6日,美国道琼斯指数“闪电崩盘”,几分钟内缩水800点。但与日后可能引发的恶果相比,这还算是微不足道的。如今,一场名叫“算法战争”(Algo Wars)的角逐正在投资机构间展开。这些投资机构正使用以类似“潜匿”和“鲨鱼”等攻击性词汇命名的算法以皮秒,甚至万亿分之一秒的速度优势赶杀竞争者。大多数机构的员工都完全无法跟上这样的节奏(这才是关键点),而那些本应当对金融交易行为进行规范的权力部门就更跟不上了。纽约的交易商一直对此事争论不休。而之所以欧洲经济危机无法找到简单的解决方案,其原因也在于这种基于算法交易体系占据了主导地位,该交易体系非常私有化、神秘而且完全超越了目前我们对金融监管的理解。

隐私也变得越来越脆弱。谷歌和Facebook等互联网公司所掌握的个人资料比以前任何私人或公共机构都要多得多,这早就不是什么新鲜事了。它们知道人们去了哪儿,正在做什么以及可能产生的消费(据谷歌宣称,信用卡公司可通过算法得知一对夫妇会在何时分手或发生婚外情)。它们还给出了商业上的辩词,认为这些信息有助于更精准地投放广告,不仅仅像以往那样,只针对特定人口统计数据意义的人群,更可以对应到人们的私人习惯上。

谷歌往往能比医生更早知道谁生了什么病,这是因为人们在感到不适后第一反应会是在谷歌引擎上搜索医学信息。谷歌的前CEO埃里克·施密特[10](Eric Schimdt)在微软克瑞格·蒙迪[11](Craig Mundiey)的支持下曾向奥巴马总统提出协助升级美国奄奄一息的医疗护理系统,用他的话说,该系统严重过时,而且医生和患者的信息严重不足,不过由于当局对此过度谨慎未能同意,这让他非常失望。

人们对智能手机的喜爱则将赌注提升到了一个新高度。英国的Blippar[12]公司开发了一款可以识别影像并把动态影像叠加到场景中的智能手机应用,将摄像头对准各类产品包装,通过Blippar应用可以产生非常有趣、信息更丰富的短视频或小游戏。包括吉百利和维珍这样的企业可以利用该应用统计和追踪消费者在不同时间、地点对不同产品的关注度。另外一个代表性企业,广告公司纳什维尔红椒公司(Nashville RedPepper)自称为“黑夜里的广告商,黑夜里的发明实验室”,该公司致力于开发一个基于Facebook的信息系统,通过识别顾客进入商店的时候拍摄的面部照片,将有关的折扣和特卖信息推送到该顾客的手机上。

这种做法会有影响么?零售商的“忠诚顾客奖励计划”中一大经验就是:如果人们觉得有好处,他们就愿意提供信息,但也必须指出,大多数人这么做也多是因为别无选择。比如谷歌的街景地图(StreetView)将街道和人群都拍摄下来,又比如谷歌对于当地WiFi网络信息的收集,这些都曾经引发过忧虑,但鉴于其带来的便利性,大部分人觉得这样倒也值得。

同时,也存在个人信息被盗或错误,并可能会带来问题。欧洲和美国的隐私法允许人们发现和纠正已知数据库中错误信息。然而对于大数据,则没有人能真正了解数据的来源(或者说它们来自哪个国家,适用于何种法律)。不管怎样,每一个字节每时每刻都正在拷贝进新的数据集里。

大数据集的维护管理成本非常高,而宽客要求的薪水也很高。大企业或许还能承担得起,但小公司和非营利机构恐怕就力所不及了。大学研究人员担心这些额外的费用会提高研究预算,哪怕只是租用一天数据集也很贵。正在削减公共开支的美国和欧洲更是如此。可见,大型机构运营大数据的优势要高于小型机构。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈