如果掌握的数据量较少就意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。在小数据时代,尽可能精准地记录数据、减少错误无疑是非常重要的。然而,当数据量大幅增加,一些错误的数据难免混杂进来,要想完全避免是不可能的,只有学会接受。
2006 年,谷歌公司为了“收集全世界的数据资源,并让人人都可享受这些资源”的目标开始涉足机器翻译。为了训练计算机,谷歌翻译动用了一个庞大的数据库,而不只是两种语言之间的文本翻译。谷歌翻译系统从各种各样语言的公司网站上寻找对译文档,寻找联合国和欧盟这些国际组织发布的官方文件和报告的译本,甚至吸收速读项目中的书籍翻译。因为谷歌翻译系统利用的数据来自未经过滤的网页内容,所以会包含一些不完整的句子、拼写错误、语法错误以及其他各种错误,输入源非常混乱,而且也没有详细的人工纠错后的注解。但是,压倒性的数据优势使谷歌翻译较其他翻译工具而言,翻译质量更好,而且可翻译的内容更多。到2012 年年中,谷歌数据库涵盖了60 多种语言,甚至能够接受14种语言的语音输入,并有很流利的对等翻译。之所以能做到这些,是因为它将语言视为能够判别可能性的数据,而不是语言本身。如果要将印度语译成加泰罗尼亚语,谷歌就会把英语作为中介语言。因为在翻译的时候它能适当增减词汇,所以谷歌的翻译比其他系统的翻译灵活很多。
如果用小数据的思维,我们可能会耗费大量的精力在减少错误发生的概率上,然而即使这样也不能完全规避掉错误,同时我们还可能会错过大量数据给我们带来的重要信息。现在我们能获取的数据中有5%是结构化数据,另外95%是非结构化数据,非结构化数据不适用传统的数据库,如果我们一味追求精确,就会使这95%的数据无法被利用。而当获取的数据量足够大,我们适度忽略掉微观层面的精确度,就可以更多地从宏观上把握发展趋势。(www.xing528.com)
美国劳工统计局每个月都要公布消费物价指数(CPI),CPI可以反映通货膨胀的情况,在调整银行利率、调整工人工资、衡量投资收益率等方面有着重要的参考价值。为了得到这些数据,联邦政府会雇用很多人向全美90 个城市的商店、办公室打电话、发传真,甚至登门拜访。他们反馈回来的各种各样的价格信息达8 万种,包括土豆的价格、出租车的票价等。政府采集这些数据每年大概需要花费2.5 亿美元。这些数据是精确的也是有序的,但是这个采集结果的公布会有几周的滞后。麻省理工学院的两位经济学家Alberto Cavell和Oberto Rigobon对此提出了一个大数据方案,那就是接受更混乱的数据。他们通过一个软件在互联网上收集信息,每天可以收集到50 万种商品的价格。虽然收集到的数据很混乱,也不是所有数据都能轻易进行比较,但是采用一些好的分析方法,就能够从中发现价格变动的趋势。2008 年经济危机时,通过这一方案在9 月就发现了通货紧缩趋势,而官方数据直到11 月才显示这个情况。
依赖传统的采样和追求精确的方式进行数据收集不一定能带来及时的信息,大数据带来的效益可以让我们容忍非精确性。何况非精确性也并非大数据本身所固有,只是当数据量足够大时,我们可以不用过多地对非精确产生焦虑而已。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。