网飞奖通过公开征集来预测人们会喜欢哪部电影。
最著名的公开招募项目是网飞奖。网飞是一家在线电影租赁公司,它于2000年推出了电影匹配(Cinematch),一个向用户推荐电影的服务系统。例如,电影匹配可能注意到你喜欢《星球大战》和《帝国反击战》,然后据此向你推荐《绝地归来》起初,电影匹配的表现差强人意。在过去的许多年里,它一直在不断提高预测用户喜好的能力。到2006年,电影匹配却停滞不前了。网飞的研究人员几乎尝试了所有他们能想到的东西,但同时他们猜想可能还有其他想法能帮助改进这个系统。于是,他们想到了一个在当时来说非常前卫的解决方案:公开征集。
对网飞奖最终的成功起到至关重要作用的是公开征集的设计,这个设计对公开征集如何才能被用于社会研究也有着重要的借鉴意义。网飞并没有像许多第一次接触公开征集这个概念的人设想的那样提出一个没有条理的征集想法,而是提出了一个明确且其解决方案易于检验的想法:要求人们利用1亿条电影评分数据来预测300万条评分留存数据(网飞没有公布的用户评分数据)。第一个开发出预测精度比电影匹配高10%的算法的人,将获得100万美元的奖金。而检验该算法的方法就是比较其预测评分与网飞的留存评分,这一明确且易行的检验方案意味着网飞奖的设计遵循了这样的理念:让检验解决方案比想出解决方案更容易。它将改进电影匹配的挑战变成了一个适于用公开征集来解决的问题。
2006年10月,网飞公开了一个数据集,其中包含了大约50万名用户的1亿条电影评分信息(我们将在第6章中讨论这一行为涉及的隐私问题)。这些数据可以被转化成一个巨大的矩阵,其中大约有50万名用户、2万部电影以及大约1亿条从1星到5星的电影评分信息(表5.2)。网飞的要求就是利用矩阵中的观测数据预测300万条留存评分。
表5.2 网飞奖数据简表
世界各地的研究人员和黑客都被这一挑战吸引了,到2008年,已有超过3万人参与其中(Thompson 2008)。在比赛过程中,网飞收到了来自5000多个团队的超过40000个解决方案提议(Netflix 2009)。显然,网飞无法阅读并理解所有这些方案。但整件事情进展很顺利,因为网飞很容易对解决方案进行验证。网飞只需让一台计算机按照预先指定的度量标准(他们当时采用的度量标准是均方误差的平方根)对预测评分和留存评分进行比较即可。正是这种快速评估解决方案的能力,使网飞能够评估每个团队的解决方案,而事实证明这一点很重要,因为好的创意确实来自一些令人惊讶的地方。事实上,获胜的解决方案来自一个由三位没有电影推荐系统构建经验的研究人员所组建的团队(Bell,Koren,and Volinsky 2010)。(www.xing528.com)
网飞奖比较好的一点是所有方案都能得到公平的评估。也就是说,当人们上传预测评分数据时,无须上传学历、年龄、种族、性别、性取向或其他任何有关个人的信息。斯坦福大学一位著名教授的预测评分与一位青少年在其卧室中完成的预测评分所接受的评估是完全相同的。不幸的是,大多数社会研究却不是这样的。也就是说,对大多数社会研究来说,评估是非常耗时的,而且在一定程度上是具有主观性的。所以,大多数的研究想法从来都没有被认真评估过,而且在评估时,评估者也很难完全不考虑提出者身份这一因素。而公开征集项目则有着公平易行的评估体系,所以它可以发现那些如果采用其他方法就会被忽略的想法。
例如,在比赛期间,有一个账号名为西蒙·芬克(Simon Funk)的人在他的博客上发布了一个基于奇异值分解的解决方案提议,这是一个线性代数的方法,其他参与者都未曾提到这一方法。芬克这篇博文既专业又很奇怪地不太正式。它描述的是一个好的解决方案,还是完全没用的东西?如果这不是一个公开征集项目的话,该解决方案可能永远也不会被认真评估。毕竟,西蒙·芬克并不是麻省理工学院的一位教授,他只是一名软件开发人员,当时正在新西兰背包旅行(Piatetsky 2007)。如果他当时通过邮件把这个想法发送给网飞的一位工程师,那么几乎可以肯定的是,这位工程师并不会认真评估这个想法。
幸运的是,因为网飞奖的评估标准很明确且评估易于实施,所以芬克的预测评分得到了评估,而且结果很快就出来了,他的方法显然非常有效:他的排名一下子飙升到了第4位。考虑到其他团队在这个问题上已经奋战了数月,这无疑是一个惊人的结果。最后,几乎所有认真对待这次比赛的竞争者都采用了他的部分方法(Bell,Koren,and Volinsky 2010)。
西蒙·芬克选择通过一篇博文来阐述他的方法,而不是试图避免让别人知道这个方法,这也表明网飞奖的许多参与者并不仅仅是因为百万美元的奖金才参与比赛的。更确切地说,许多参与者似乎也是为了享受这个问题所带来的智力挑战和由此而形成的团体(Thompson 2008),我觉得许多研究人员都能够理解这种感觉。
网飞奖是公开征集的一个经典示例。网飞提出了一个有着明确目标(预测电影评分)的问题,并向许多人征集该问题的解决方案。网飞之所以能够评估所有这些解决方案,是因为验证这些解决方案要比想出解决方案更加容易。最终,网飞经过验证挑选出了最好的解决方案。接下来,我将向大家展示如何将同样的方法应用于生物学和法律领域,并且是在没有百万美元奖金的情况下。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。