在成长过程中,他曾想过,或许自己可以做一名会计。当女朋友的父亲帮他找了一份银行出纳员的工作时,他就离开了学校。在为银行效力期间,有机会出现时他也会把握住,坐上新岗位,但没有一个是他特别感兴趣的,或者说没一个岗位的收入是丰厚的。他最终发现计算机编程工作很有意思,因为这份工作可以让他“深入了解那家银行运行所依赖的基础数据库”。
事实表明,霍斯利工作勤奋,热衷于研究人类行为,能辨是非,正义感强。最终,银行安排他追查银行员工的欺诈行为,因为成绩斐然,后来又负责研究消费者诈骗行为(对这家银行构成更大的威胁)。英国每年因此类诈骗而损失的资金大约为15亿美元。近年来,两种情形使诈骗活动更为泛滥:网上银行业务增多,银行间为了迅速抢占客户而激烈竞争。
有那么一段时间,资金成本如此低,信贷如此宽松,不论就业、国籍、信誉程度如何,只要走进一家英国银行的人的心脏还在跳动,都可以轻易开立一张银行借记卡。(事实上,甚至死活都不足以成为问题:诈骗犯也很乐意使用死人和虚构人的身份。)霍斯利了解不同客户群体的情况。西非移民是支票伪造高手,而东欧人则是最出色的个人身份信息窃贼。这类诈骗犯十分执著,创意非凡:他们会追踪至一家银行的呼叫中心,在外面徘徊直到员工出来,进而展开贿赂,套取客户信息。
霍斯利组建了一个数据分析和特征筛选团队,编写能够搜索银行数据库以识别诈骗行为的计算机程序。这些程序员干得不错。然而,诈骗犯也不差,而且反应迅速,一旦以前的诈骗方法被识破,便立即搞出新花样。如此三番五次地较量之后,霍斯利的思维更敏锐,对诈骗犯的思维方式把握得更深刻。即使在梦中,他也仍然想着银行数以亿计的数据,苦苦寻找那些可能间接反映违法行为的群体特征。他的算法也越来越严密。
大约就在这个时候,我们有幸见到了伊恩·霍斯利,于是我们与他一起开始思考这个问题:如果他的算法能够筛选浩瀚繁复的银行数据,找出诈骗犯,那么同样使用这一算法,能否巧妙地识别出其他坏人,例如潜在的恐怖分子呢?
“9·11”恐怖袭击后的数据分析,支持了这种预感的可能性。那19名恐怖分子的银行业务反映出了他们的某些行为方式,总体而论,与银行一般客户的行为特征有着显著差别:
·他们的美元账户上存有现金或现金等价物,平均数额大致为4000美元,通常是在一家大型知名银行的分行开立账户。
·他们通常以邮政信箱作为联系地址,地址变化频繁。
·其中有些人经常给其他国家电汇,也经常收到来自其他国家的电汇,但电汇数额通常较小,不足以引起银行的注意而予以上报。
·他们往往一次性存入大量现金,随后经常取出小额现金。
·他们的银行业务没有反映出正常的生活费用,例如租金、公用事业费用、汽车还款、保险费,等等。
·每月存钱或取款的时间没有明显的规律可言。
·不用储蓄账户或保险箱业务。
·支取现金比使用支票的比例明显高出很多。
毫无疑问,事发后总结恐怖分子的银行业务特点,要比事发前弄清楚恐怖分子的银行业务特点容易。而且,这19个人——生活在美国、接受如何劫持航班训练的外国人——的行为特征,不一定就与其他恐怖分子(例如土生土长的伦敦自杀式人体炸弹)的行为特征一致。
此外,我们过去用数据识别违规欺诈行为——例如我们在《魔鬼经济学》中谈到的小学教师舞弊、相扑运动员的欺骗行为——所选取的目标群体中,舞弊、欺诈的比例相对较高。但在本例中,涉及的目标群体规模庞大(仅霍斯利工作的这一家银行就有数百万的客户),而潜在恐怖分子的数量却少之又少。
我们假定,或许你能够开发出一种银行算法,准确率高达99%,同时假定英国有500个恐怖分子,那么这种算法可以准确地识别出495名恐怖分子(即99%)。然而,在英国,大约有5000万成年人与恐怖主义扯不上任何关系,而且那种算法也会错误识别1%的群体,也就是50万人。最后,这个准确率为99%的了不起的算法,会弄出太多“假阳性”结果——50万无辜的英国人完全有理由义愤填膺,当他们以涉嫌从事恐怖活动的理由被安全部门强制带走时。
当然,安全部门也没法处理如此庞大的工作量。
卫生保健领域同样存在这个问题。对近期进行的一次癌症筛查结果的分析表明,68000位参加者在进行14次检测后,有50%的人至少会得到1次假阳性检测结果。卫生保健的大力倡导者可能会强烈要求医院全面筛查各类疾病,但现实情况是,如果真的实施,那么医院就会充斥大量的假阳性患者,真正的病人将被挤出医院。棒球运动员迈克·洛厄尔(Mike Lowell)——“世界职业棒球大赛最有价值球员”近期上榜球员,在谈及检测联赛中每位球员的荷尔蒙的计划时,指出了相关的一个问题。“如果检测结果的准确率高达99%,这也意味着会产生7个假阳性球员。”洛厄尔说,“如果这些假阳性球员中的一个就是卡尔·瑞普肯(CalRipken),怎么办?这会给他的职业生涯涂上污点吗?”
与此类似的是,如果你想要缉拿恐怖分子,那么99%的准确率离满意还相差甚远。
如何判断谁是恐怖分子?
2005年7月7日,4个穆斯林自杀式人体炸弹袭击伦敦,1个在拥挤不堪的公交车上爆炸,3个在伦敦地铁里引爆,总共夺去52条人命。“就我个人而言,此番袭击让我悲痛至极。”霍斯利回忆说,“当时,我们才刚开始实施识别恐怖分子的项目,事发后,我就在想,如果早几年就启动这个项目,我们能阻止这次袭击吗?”(www.xing528.com)
“7·7”爆炸案中的自杀式人体炸弹留下了一些银行数据,但不是很多。然而,在接下来的几个月中,大批形迹可疑的人被英国警方逮捕——这对于我们开展恐怖分子识别项目帮了一个大忙。无可否认,没有一个人是被证实的恐怖分子,其中大多数人根本就不会以任何罪名被定罪。但是,既然他们与恐怖分子的特征如此吻合,并因此遭到抓捕,那么或许我们可以利用他们的银行业务习惯创建一个实用的算法。碰巧的是,其中有100多个恐怖主义嫌疑人就是霍斯利工作银行的客户。
专家导读
仅仅依靠数学计算就能判断出谁是恐怖分子?这听起来像是天方夜谭,但作者却举出了大量的实例以及详细的计算说明,让人读起来不得不信服。这个世界真是奇怪,看起来,你未来能不能当上老板也是能计算出来的。
这个程序要分两步走。首先,汇总这100多名嫌疑人的所有可用资料,然后根据他们不同于其他普通人的行为特征,创建一个算法。一旦算法得到最佳调整,就可以用来从这家银行的数据库挖掘信息,识别出隐藏的罪犯。
鉴于英国正在打击伊斯兰宗教激进分子,不再针对(比如)爱尔兰游击队,所以被捕的嫌疑人中一定有人用穆斯林姓名的。后来证明,穆斯林姓名是这种算法中最明显的人口统计特征。如果一个人既没有穆斯林姓,也没有穆斯林名,那么这个人是恐怖主义嫌疑人的概率,仅有50万分之一。如果仅有穆斯林姓或穆斯林名,那么其概率为3万分之一。然而,如果既有穆斯林姓又有穆斯林名,那么其概率大幅上升为2000分之一。
潜在的恐怖分子绝大多数都是男性,而且年龄多在20~35岁。此外,他们极有可能:
·拥有移动电话
·是学生
·租房,没买房
仅凭这些特征,几乎不能作为逮捕他们的理由。(这些特征描述几乎与我们的许多研究助理的行为特征都吻合,但我们十分肯定他们中没一个是恐怖分子。)但当我们把这些特征与穆斯林姓名放在一起时,那么即使这些特征再普通,也就开始提高上述算法的威力了。
一旦考虑了上述因素,其他几个特征则是无关紧要的,不能用以识别恐怖分子。这几个特征包括:
·就业状况
·婚姻状况
·住所距清真寺很近
住所毗邻清真寺、没有工作、单身的26岁男性是恐怖分子的概率,绝不会比住所距离清真寺5英里、有工作、已婚的26岁男性是恐怖分子的概率更高。这与一般看法竟然是截然相反的。
还有一些反面特征格外突出。数据表明,潜在的恐怖分子尤其不太可能:
·开立储蓄账户
·在星期五下午从自动取款机上取钱
·投保人身险
穆斯林在每周五的下午要参加集体祷告仪式,因此周五不从自动取款机上取钱似乎是自然的。人身险这一特征则更有趣一些。假定你26岁,已婚,有两个孩子,那么从很大程度上说,投保人身险合情合理——万一你“英年早逝”,那么你的家人还能靠保险补偿金维持生计。然而,如果投保人自杀致死,那么保险公司是不会为此支付补偿金的。因此,一个想到某天可能会把自己炸上天的26岁的家庭户主,很可能不会把钱浪费在人身险上。
所有这些因素都间接表明,如果一个正在成长的恐怖分子希望掩盖自己的可疑形迹,那么他应该去开户银行,把自己账户的姓名改掉,要一点都不像穆斯林姓名的那种(伊恩,或许吧)。而且,买几份人身险也不是坏事。霍斯利工作的那家银行就提供几种人身险,每月缴不了几个钱。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。