首页 理论教育 麻省理工学院学生奇缘:大数据时代中的魔鬼数学思维

麻省理工学院学生奇缘:大数据时代中的魔鬼数学思维

时间:2023-11-16 理论教育 版权反馈
【摘要】:剑桥市位于波士顿郊区,是哈佛大学与麻省理工学院的所在地。一名大学生走进超市,要求购买该州新发行的“Cash WinFall”彩票。麻省理工学院的一群大学生。从事一项独立研究项目的麻省理工学院大四学生詹姆斯·哈维,在比较该州各种彩票游戏的优缺点时发现,马萨诸塞州在不经意间创造了一个暴利投资项目,任何有一定数学知识的人都可以从中牟利。他召集了一群朋友(在麻省理工学院召集一帮善

麻省理工学院学生奇缘:大数据时代中的魔鬼数学思维

2005年7月12日,马萨诸塞州彩票中心监督办公室接到了剑桥市晨星超市一位员工打来的不同寻常的电话。剑桥市位于波士顿郊区,是哈佛大学与麻省理工学院的所在地。一名大学生走进超市,要求购买该州新发行的“Cash WinFall”彩票。大学生买彩票并不奇怪,但奇怪的是他的购买金额很大:这位大学生拿出了14000张手工填写的选号纸条,购买总金额为28000美元的彩票。

彩票中心的工作人员回复那位超市员工:“没有问题。只要那些纸条填写正确,任何人想买多少张彩票都可以。”彩票中心有一个规定:除非得到彩票中心的授权,否则超市的日彩票销售金额不得超过5000美元。但是,得到授权是很容易的事。

那个星期,晨星超市并不是波士顿地区唯一一个销售势头强劲的彩票代理点,还有12家商场在7月14日开奖之前向彩票中心询问授权问题,其中有三家位于波士顿海湾南侧的昆西地区。为数不多的几位买家从多家商场买走了数以万计的“Cash WinFall”彩票,对于彩票中心来说,这是件好事。

这到底是怎么一回事呢?答案并不神秘,从“Cash WinFall”彩票的游戏规则就能清楚地看出其中的奥秘。截至2004年秋季,由于在一年时间内都没有人中得“Mass Millions”借鉴彩票的累积奖金,因此彩票中心决定停止发行该彩票。玩家信心不足,导致彩票销售额非常低。马萨诸塞州急需振兴该州的彩票业,彩票中心的工作人员想到了一个主意,打算借鉴密歇根的“WinFall”彩票规则,于是“Cash WinFall”彩票应运而生。“Cash WinFall”彩票的游戏规则规定,如果一周之内没有人领走累积奖金,累积奖金不会越积越多;与之相反,只要奖池超过200万美元,奖金就会向下分配,增加容易赢取的奖项的金额,而累积奖金将被重置,在下一次开奖时降到50万美元的最低额度。采用这种新游戏规则之后,玩家即使没有中大奖,也有可能赢取大笔奖金。彩票中心希望借此提升该彩票的吸引力

事实上,新游戏规则的效果好得过头了。在2005年夏天之前,极有魄力的玩家就已经发现,由于马萨诸塞州在“Cash WinFall”彩票规则的设计上漫不经心,买“Cash WinFall”彩票真的是一笔不错的交易

在正常情况下,“Cash WinFall”彩票的奖项、中奖概率与奖金如下表所示:

如果累积奖金为100万美元,那么售价2美元的彩票价值的期望值为:

100万美元/930万+4000美元/39000+150美元/800

+5美元/47+2美元/6.8=79.8美分

这样的价值真的很低,与之相比,买强力球似乎是精明之举。(在上述计算中,我们已经非常大方了,将免费赠送的彩票的价值定为玩家本来需要支付的2美元,而不是这张彩票给玩家带来的小得多的期望值。)

但当奖金向下分配时,回报率就会大不相同。2005年2月7日,因为没有人中大奖,累积奖金的金额已经接近300万美元。出现这样的情况并不令人奇怪,因为当天只有47万人参与了“Cash WinFall”彩票游戏,而中全部6个号码的概率大约为千万分之一。

于是,所有的奖金全部向下分配,分配至“6中5”和“6中3”奖池的金额各为60万美元,此外还有140万美元进入了“6中4”的奖池。对“Cash WinFall”彩票游戏而言,6中4的概率约为1/800,因此在当天的47万名玩家中,应该有约600名玩家猜中4个号码。中奖玩家的人数确实很多,但140万美元也是金额不菲,分成600份,每个赢家可以得到2000多美元。事实上,当天“6中4”的奖金应该是每注2385美元左右,因此,其吸引力远远超过正常情况下150美元的单注奖金。如果有1/800的机会赢取2385美元的收益,其价值的期望值就是:

2385美元/800=2.98美元

换句话说,单凭“6中4”的奖金,就足以促使人们花2美元购买该彩票了。再加上其他奖金,收益将更加可观。

因此,每张彩票的价值期望值是:

50000美元/39000+2385美元/800+60美元/47=5.53美元

投入2美元产生3.5美元利润投资,是不容错过的。

当然,如果某个家伙幸运地中了大奖,那么,对于其他玩家来说,这种游戏又被剥去了华丽的外衣,变成呆头呆脑的大南瓜了。但是,购买“Cash WinFall”彩票的人一直很少,出现这种结果的可能性也很小。该游戏共有45次奖金向下分配的情况,其中只有1次有一位玩家中了全部6个号码,挡住了奖金持续不断向下分配的势头。

需要澄清一点:上述计算并不表示2美元的彩票肯定能帮你赢钱。恰恰相反,在奖金向下分配时购买的“Cash WinFall”彩票,与其他时间购买的彩票一样,很有可能让你赔钱。期望值并不是你期望实现的价值,不过,在累积奖金向下分配时,各奖项的金额(如果你真的中奖,尽管这种可能性很小)会大大增加。期望值的魅力在于,它告诉人们买100张、1000张或者10000张彩票时,单注平均价值接近5.53美元。任何彩票都可能毫无价值,但是,如果你购买了1000张,那么几乎可以肯定的是,你不仅能把买彩票的钱挣回来,还会有不错的收益。

谁会一次性购买1000张彩票呢?

麻省理工学院的一群大学生。(www.xing528.com)

我之所以可以精确地告诉大家2005年2月7日的“Cash WinFall”彩票中奖数据,是因为2012年7月,马萨诸塞州检察官格雷戈里·沙利文(Gregory Sullivan)向州政府提交了一份关于“Cash WinFall”彩票事件的报告,其中详尽地记录了这些数据。坦白地说,沙利文的描述令人震惊,同时会让人不由自主地联想:是否有人拥有将该报告拍成电影的权利?我敢肯定,令人们产生这种想法的州政府财政监控报告在历史上仅此一份。

2月7日这一天尤为特别,是有原因的。从事一项独立研究项目的麻省理工学院大四学生詹姆斯·哈维(James Harvey),在比较该州各种彩票游戏的优缺点时发现,马萨诸塞州在不经意间创造了一个暴利投资项目,任何有一定数学知识的人都可以从中牟利。2月7日是哈维发现这个秘密之后的第一个累积奖金向下分配日。他召集了一群朋友(在麻省理工学院召集一帮善于计算期望值的大学生,并不是一件难事),购买了1000张彩票。不出所料,其中一张彩票中了概率为1/800的奖项,哈维这群人得到了2000多美元的奖金。他们还有很多彩票中了“6中3”奖项,他们获得的奖金总额大约是最初投资额的三倍。

哈维及其投资合伙人自然不会就此罢手,同时,他也没有足够的时间去完成那个独立研究项目,他至少没有凭此拿到课程学分。实际上,他的研究项目迅速演变成了一桩发展势头迅猛的生意。那年夏天,哈维及其合伙人购买了几万张彩票,在剑桥市晨星超市购买大量彩票的大学生就是他们中的一个。尽管他们的这项活动不是漫无目的的行为,但是他们把自己的这个小团队称作“随机策略”(Random Strategies)团队,暗指麻省理工学院的本科生宿舍“兰登厅”(Random Hall)。[1]当初,哈维就是在兰登厅草拟了通过“Cash WinFall”赚钱的计划。

除了麻省理工学院的大学生以外,还有一些人在利用“Cash WinFall”赚钱,并且至少形成了两个博彩团队。美国东北大学的医学研究人员张英(音)博士建立了“张博士彩票俱乐部”,昆西的彩票销售出现井喷现象就是这个俱乐部造成的。这群人曾在每次累积奖金向下分配时都购买30万美元的彩票,2006年,张博士放弃了医学研究,全身心地投入“Cash WinFall”博彩活动。

此外,还有一个博彩团队,它的领导人是杰拉德·塞尔比(Gerald Selbee),一位70多岁的拥有数学学士学位的老人。塞尔比住在密歇根,这里是“WinFall”彩票的发源地。他的这个团队有32名成员,其中大多是他的亲戚。在2005年密歇根停止“WinFall”游戏之前的两年左右的时间里,他们一直在那里参与这种博彩活动。2005年8月,塞尔比发现这种送钱上门的活动又开始在美国东部上演,于是他断然采取了行动,与妻子马乔丽(Marjorie)驱车前往马萨诸塞州西部的迪尔菲尔德市,开展了在那里的第一次博彩活动。他们购买了6万张“Cash WinFall”彩票,获得了超过5万美元的收益。塞尔比利用在密歇根积累的博彩经验,在购买彩票之余,还进行了另外一项活动,以赚取更多的利润。马萨诸塞州的商场在销售彩票时会收取5%的佣金,塞尔比与一家商场达成协议,他在该商场一次性购买几十万美元的彩票,作为交换,商场与他均分5%的佣金。凭此一项,塞尔比的团队在每次累积奖金向下分配时就可以多赚几千美元。

你无须拥有麻省理工学院的学位,也能明白彩票大户的大量涌现会对彩票活动产生什么影响。别忘了,向下分配的奖金之所以如此丰厚,是因为能中大奖的玩家非常少。到2007年,在每次累积奖金向下分配之后,彩票的销售量都会达到100万张甚至更多,而其中大多数都被这三个博彩团队买走了。“6中4”的单注奖金达到2300多美元的日子早已一去不复返了。如果有150万人购买了彩票,“6中4”的中奖概率为1/800,那么通常会有接近2000名中奖者,共同分配140万美元的奖金,因此,单注奖金就变成了不到800美元。

彩票大户参与“Cash WinFall”彩票游戏并有所斩获的可能性不难估算,关键是要从彩票本身这个视角加以考虑。在累积奖金向下分配时,州政府会从累积奖金中拿出(至少)200万美元作为小额奖项的奖金。比如,有150万人冲着向下分配的奖金购买彩票,那么,彩票收益就会多出300万美元。其中的40%,即120万美元,进入了州政府的保险箱,剩余的180万美元则是奖金,在日落之前被玩家瓜分。因此,政府当天收入300万美元,支出380万美元(其中200万美元是累积奖金,180万美元来自当天的彩票销售额)。无论何时,只要政府赚钱了,玩家的平均收益就是负数,反之亦然。因此,这一天是参与这种游戏的绝佳时机,玩家总共可以从政府那里赚到80万美元。

如果玩家购买了350万张彩票,情况就完全不同了。此时,彩票中心会留下280万美元作为自己的收益,把剩余的420万美元作为奖金支付给玩家。再加上奖池中已有的200万美元,奖金总额达到620万美元,低于政府700万美元的收益。换言之,尽管向下分配的奖金十分丰厚,但只要购买彩票的人足够多,政府最终一定会赚钱。出现这种结果时,政府会非常高兴。

收支平衡点是向下分配的40%的日收益与奖池中已有的200万美元(不了解其中原理或者过于热爱冒险的玩家,在非向下分配日参与这种游戏时所贡献的钱)正好相等,也就是彩票销售额为500万美元,销售量为250万张。当“Cash WinFall”的销售量超过这个数字时,就不宜参与。但是,只要销售量低于这个数字(“WinFall”彩票的销售量从未超出这个数字),玩家就可以赚钱。

实际上,我们在这里应用的是一种非常有效而且是常识性的知识,叫作“期望值的相加性”(additivity of expected value)。假定我拥有麦当劳的特许经营权和一家咖啡店,麦当劳门店年均利润的期望值为10万美元,咖啡店年均利润的期望值是5万美元。当然,利润每年都会有起伏。期望值的意思是,从长远看,麦当劳门店平均每年可以赚大约10万美元,咖啡店的年均利润为5万美元。

相加性表明,总体来讲,销售“巨无霸汉堡摩卡奇诺咖啡的年均总利润为15万美元,即两种生意的年均利润期望值之和。

期望值的相加性:两个事物的期望值之和,即第一个事物的期望值加上第二个事物的期望值。

就像我们用公式a×b=b×a来表示乘法交换律(比如,每排有X个小洞,一共有Y排,与每排有Y个小洞,一共有X列相比,小洞的总数相同),数学家也热衷于用公式表示上述过程。因此,如果X与Y是两个数字,我们不清楚它们的值分别是多少,且E(X)表示“X的期望值”,那么期望值的相加性就可以表示为:

E(X+Y)=E(X)+E(Y)

下面,我向大家介绍期望值相加性在彩票分析中的应用。每次开奖时,所有彩票的总价值是政府发放的奖金总额。因此,总价值不具有任何不确定性,在上面第一个例子中总价值就是向下分配的奖金总额,即380万美元。肯定到手的380万美元,它的期望值就是我们所期望的价值,即380万美元。

在这个例子中,向下分配日当天有150万个玩家参与游戏。根据期望值的相加性,150万张彩票的期望值总和就是彩票总价值的期望值,即380万美元。但是,每张彩票价值相同(至少在我们知道中奖号码之前如此)。因此,我们把150万个相同的数字相加,和为380万美元,那么这个数字只能是2.53美元。也就是说,我们对这张售价2美元彩票的利润期望值是0.53美元。这个利润已经超过了赌注的25%,对于被大家视为骗钱的彩票游戏而言,这样的利润相当可观。

相加性原理十分直观,因此我们很容易认为这是显而易见的事实。但是,它与终身年金保险的定价方法一样,其实并不是那么显而易见。为了说明这个问题,我们用其他概念来取代期望值,就会发现我们往往会得出乱七八糟的结果。例如:

一连串事物的和的最可能的值就是各事物最可能的值的和。

这就大错特错了。假定我在我的三个孩子中随机选择一个人继承财产,每个孩子最可能分得的财产为零,因为他有2/3的概率不会被我选中。但是,三个人得到的财产总额的最可能的值(其实,只有一个可能值)却是我的所有财产。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈