首页 理论教育 大数据时代:第4章数字游戏

大数据时代:第4章数字游戏

时间:2023-11-16 理论教育 版权反馈
【摘要】:他指出,纵观人类历史,人类的暴力行为呈稳步下降的趋势。因此,更好的方法是研究比率:死亡人数在总人口中所占的比例。南达科他州很不幸地位列榜首,每10万人中每年死于脑癌的人数为5.7人,远远超出每年3.4人的全美脑癌死亡率。在人口排名的竞争中,该州与西弗吉尼亚州是难兄难弟,双方为第37名的位置争得热火朝天。

大数据时代:第4章数字游戏

中东矛盾有多严重?乔治敦大学反恐专家丹尼尔·毕曼(Daniel Byman)在《外交》(Foreign Affairs)杂志上给出了一些冷冰冰的数字:“以色列军方报告,从(2000年)的‘第二次巴勒斯坦大起义’至2005年10月底,有1074个以色列人死亡,7520人受伤。对以色列这样一个小国而言,这两个数字已经大得惊人了,按照比例换算的话,相当于有5万个美国人死亡、30万个美国人受伤。”在讨论该地区的问题时,这样的计算司空见惯。2001年12月,美国众议院宣布,在以色列发生的一系列袭击中,有26人丧生,“等比换算的话,相当于有1200名美国人遭遇了不幸”。2006年,美国前众议长纽特·金里奇(Newt Gingrich)提醒道:“别忘了,如果有8个以色列人死于非命,考虑到人口差异,相当于我们失去了近500个美国同胞。”阿迈德·摩尔(Ahmed Moor)不甘示弱,在《洛杉矶时报》(Los Angeles Times)上撰文指出:“在‘铸铅行动’中,以色列人打死了1400个巴勒斯坦人,按比例换算,相当于杀死了30万个美国人,但是新任总统奥巴马却对此保持沉默。”

“按比例换算”这样的措辞并不仅限于讨论巴勒斯坦地区的问题。1988年,杰拉尔德·卡普兰(Gerald Caplan)通过《多伦多明星报》(Toronto Star)指出:“8年来,冲突双方共有约4.5万人死伤或被绑架,按比例换算,相当于30万个加拿大人或者300万个美国人。”1997年,美国前国防部部长罗伯特·麦克纳马拉(Robert McNamara)说,越战期间有近400万个越南人丧生,按比例换算,“相当于2700万个美国人”。只要一个小国家有很多人遭遇不幸,社论作者们就会拿出“比例尺”:这个数字相当于有多少美国人死于非命呢?

这些数字是怎么换算的?恐怖分子杀死的1074个以色列人,在以色列人口(2000~2005年为600万~700万)中占0.015%。于是,专家们认为,在人口比以色列多的美国,如果总人口中有0.015%(的确是5万个左右)的人死亡,将会造成差不多大的影响。

这是赤裸裸的“线性中心主义”(lineocentrism)。如果以比例换算作为论据,我们可以把1074个被杀死的以色列人通过下图换算成全世界任何地区死于非命的人口:

1074个以色列受害者,相当于7700个西班牙人、22.3万个中国人、300个斯洛文尼亚人或一两个图瓦卢人。

这样的推理最终(甚至立刻)会出现问题。假设酒吧快要下班时还有两名顾客,其中一人一拳把另一个人打昏在地。显然,这与1.5亿个美国人同一时间被人在脸上狠揍了一拳相比,情况完全不可同日而语。

再举一例。1994年,卢旺达有11%的人失去了生命,所有人都一致认为这是20世纪最恶劣的罪行。但是,我们在描述它时不会说“如果把这起事件放到20世纪40年代的欧洲,其恶劣程度是纳粹大屠杀的9倍”,这样的表达只会让人极度反感。

数学领域规避错误的一个重要原则是:实地测试某个数学方法时,可采用不同的方式进行计算。如果得到不同的结果,则说明我们使用的方法有问题。

例如,2004年马德里阿托查火车站遭遇炸弹袭击,近200人因此丧生。如果纽约中央车站遭遇同样严重的炸弹袭击,结果会怎么样呢?

美国人口大约是西班牙人口的7倍。因此,如果我们按照200人在西班牙人口中占0.0004%的比例来推算,就会认为同样的袭击发生在美国将会造成1300人丧生。另一方面,200人在马德里人口中占0.006%,纽约市的人口是它的2.5倍,按比例换算,相当于有463个纽约人受害。此外,我们是否应该将马德里省与纽约州相比较呢?那样的话,答案就会接近600人。因此,我们会得到不同的结果,这是一个危险信号,说明按比例换算的方法值得怀疑。

当然,我们也不能全盘否定按比例换算的方法,这种方法的确非常重要。比如,我们希望了解美国哪些地区的脑癌发病率最高,如果单纯地统计哪些州的脑癌死亡人数最多,并没有多大意义。美国脑癌发病人数最多的州有加利福尼亚州、得克萨斯州、纽约州与佛罗里达州,因为这些州的人口很多。史蒂芬·平克(Stephen Pinker)在他颇为畅销的著作《人性中的善良天使》(The Best Angels of Our Nature)中持类似观点。他指出,纵观人类历史,人类的暴力行为呈稳步下降的趋势。因为强权政治导致无数人遭殃,所以从这个方面看,20世纪声名狼藉。但是平克又指出,如果按比例换算,纳粹、苏联以及殖民霸权国家的屠杀行为就算不上特别恶劣了,若在现代社会,惨遭毒手的人可能会多得多。如今,我们对“三十年战争”这些历史上的流血事件仍然感到悲伤,但是根据平克的估计,“三十年战争”期间失去生命的人只占世界人口的1%。如果按比例换算成现代社会的人口,就意味着有7000万人丧命,这比两次世界大战的总死亡人数还要多。

因此,更好的方法是研究比率:死亡人数在总人口中所占的比例。比如,我们可以计算美国各州每年死于脑癌的人在该州人口中所占的比例,而无须逐州统计死于脑癌的人数等原始数据。按照这种方法,得出的排行榜完全不同。南达科他州很不幸地位列榜首,每10万人中每年死于脑癌的人数为5.7人,远远超出每年3.4人的全美脑癌死亡率。排在南达科他州之后的是内布拉斯加州、阿拉斯加州、特拉华州和缅因州。如果我们不希望患上脑癌,可能就要避开这些地方。那么,我们该搬到什么地方去呢?在这个名单的末尾,我们会发现怀俄明州、佛蒙特州、北达科他州、夏威夷以及哥伦比亚特区。

这个结果有点儿奇怪。南达科他州脑癌频发,为什么北达科他州却几乎没有人患上这种癌症呢?为什么住到佛蒙特州就安全,而住在缅因州就有危险呢?

原因不是南达科他州一定会让居民患上脑癌,而北达科他州的居民则对癌症免疫。排在榜首的这5个州有共同的特点,而排在榜尾的那5个州也有相似之处,即这些地方人口稀少。在排在前面和末尾的这9个州(及一个特区)中,人口最多的是内布拉斯加州。在人口排名的竞争中,该州与西弗吉尼亚州是难兄难弟,双方为第37名的位置争得热火朝天。这个分析结果似乎表明,居住在人口较少的州,患脑癌的概率有可能高得多,也有可能低得多。

很显然,这个结论没有任何道理,因此,我们最好换一种解释方法。(www.xing528.com)

为了更好地理解这种情况,我们先做一个虚拟游戏,游戏的名字叫作“谁最善于抛硬币”。玩法很简单,将一把硬币抛出去,正面朝上的硬币数量最多的一方获胜。我们给这个游戏增加一点儿趣味性,让大家手里握的硬币数量不同。有些人(“小数”组)只有10枚硬币,有些人(“大数”组)则有100枚硬币。

如果以正面朝上硬币的绝对数量来计分,我们几乎可以肯定获胜方是“大数”组的成员。“大数”组成员大多都有约50枚硬币正面朝上,这个数字是“小数”组成员无法企及的。即使“小数”组有100名成员,他们当中的最高得分也只能是8或9枚。

显然,这样的玩法并不公平,因为“大数”组拥有难以逾越的先天优势。因此,我们可以改进这个游戏:在评分时,不以绝对数量为依据,而是根据比例来计分。这样的计分方法,对两个组来说应该是公平的。

但是,这个计分方法仍然不公平。我前面说过,如果“小数”组有100名成员,至少有一个人可能抛出8枚正面朝上的硬币,因此他的得分为80%。那么“大数”组的成员呢?他们都不会有80%的硬币是正面朝上的。当然,可能性是存在的,但却不会发生。事实上,从概率的角度看,“大数”组必须包含20亿名成员,出现过高或过低的结果才是合理的。这个结论符合我们对于概率的直觉认识,抛的硬币越多,越有可能出现一半正面朝上一半正面朝下的结果。

读者朋友们可以自己尝试一番,我就动手做过这个实验。为了模拟“小数”组成员,我一次抛10枚硬币,连续抛很多次,硬币正面朝上的数量构成下面这个序列:

4,4,5,6,5,4,3,3,4,5,5,9,3,5,7,4,5,7,7,9……

然后,我模拟“大数”组成员,一次抛出100枚硬币,多次抛投的结果为:

46,54,48,45,45,52,49,47,58,40,57,46,46,51,52,51,50,60,43,45……

每次抛1000枚硬币的结果是:

486,501,489,472,537,474,508,510,478,508,493,511,489,510,530,490,503,462,500,494……

算了,还是跟大家坦白吧。我并没有真的抛1000枚硬币,而是用计算机模拟得出的结果,谁有那么多的时间抛1000枚硬币呢?

不过,还真的有人这样做了。1939年,南非数学家克里奇(J.E.Kerrich)因为冒失地跑到了欧洲,结果很快在丹麦被逮捕并被关进了集中营。如果一个普通人被关在集中营,不知道猴年马月才能重见天日,那么他可能会在牢房的墙壁上刻画记号记录天数,以此来帮助自己度过这段难熬的时光。不过,克里奇这位热衷于统计学研究的囚犯则不同,他总共将一枚硬币抛了1万次,还记录了正面朝上的数量,统计结果如下图所示。

从中我们可以看出,随着硬币的数量越来越多,正面朝上的概率明显地向50%靠近,就好像被一把看不见的老虎钳钳住了一样。计算机模拟也会产生同样的结果。抛10枚硬币,正面朝上的比例范围为30%~90%;抛100枚,比例范围缩小,变为40%~60%;抛1000枚,比例范围仅为46.2%~53.7%。在某个规则的作用下,这个比例越来越接近50%。这只不讲情面、无法抗拒的“手”就是“大数定律”(Law of Large Numbers)。这里,我就不赘述这条定理了(尽管这条定理极具美感),但是我们可以这样理解:抛的硬币越多,正面朝上的比例为80%的概率就越小。事实上,如果抛的硬币足够多,结果为有51%的硬币正面朝上的概率也是微乎其微的!在抛10枚硬币的情况下,如果得到高度失衡的结果,并不值得我们关注。但是,如果抛100枚硬币,结果仍然失衡,那就让人吃惊了,我们甚至会怀疑:是不是有人在硬币上动了手脚?

随着实验不断重复,实验结果往往会趋于稳定,并接近一个固定的平均值。事实上,自从运用数学方法研究概率以来,我们经常会得出这样的结论。16世纪的吉罗拉莫·卡尔达诺(Girolamo Cardano)就用不是十分正式的方式提出了这个原则,但是,直到19世纪初,西莫恩·德尼·泊松(Simeon-Denis Poisson)才赋予它一个简明扼要的名字:大数定律。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈