2009年夏天,手机铃声响遍了整个卢旺达。除了来自家人、朋友和商业伙伴的数百万个电话之外,大约有1000名卢旺达人还接到了由乔舒亚·布卢门斯托克(Joshua Blumenstock)及其同事打来的电话。研究人员从卢旺达最大手机供应商的数据库中随机抽样进行调查,以完成对财富与贫困的研究,这个数据库中有150万名客户。布卢门斯托克和他的同事会询问这些被随机选中的人是否愿意参与调查,然后向其解释这项研究的性质,接下来便会询问一系列有关他们的人口学特征、社会特征和经济特征方面的问题。
到目前为止,我所描述的一切都让这项研究听起来像是一项传统的社会科学调查。但接下来我要描述的就不再传统了,至少目前来说是这样的。除了调查而来的数据外,布卢门斯托克和同事还拥有这150万人的完整通话记录。他们将这两部分数据结合起来,利用调查数据训练了一个机器学习模型,使模型能根据一个人的通话记录预测其财富状况。接着,他们利用这个模型评估数据库中150万名客户的财富状况,还利用通话记录中包含的地理信息判断这150万名客户的居住位置。最后他们将所有这些信息——估算的财富状况以及居住位置,综合到一起,绘制出高分辨率的卢旺达财富地理分布图。尤其是,他们能够估算出卢旺达2148个街区(该国的最小行政单位)中每一个街区的财富状况。
要证实这些估算是不可能的,因为从来没有人估算过卢旺达中如此小的地理区域的财富状况。但在布卢门斯托克和同事把这些估算值汇总为分别反映卢旺达30个地区财富状况的数值后,他们发现,这些数值与通过人口统计和健康调查(Demographic and Health Survey)得到的数据非常接近,而人口统计和健康调查被认为是发展中国家调查的黄金标准。虽然这两种方法在此案例中产生了类似的结果,但布卢门斯托克和同事的方法要比传统的人口统计和健康调查的方法快了差不多10倍,成本为后者的1/50左右。这些明显更快、更节省成本的预测为研究人员、政府和公司创造了新的可能性(Blumenstock,Cadamuro,and On 2015)。(www.xing528.com)
这项研究有点像一个罗夏墨迹测验[1]:人们看到的事物取决于他们的背景。许多社会科学家从中看到了一个新的测量工具,这个工具可以检验经济发展理论。许多数据科学家从中看到了一个很酷的、新的机器学习问题。许多商界人士看到了一个可以让他们从已经搜集到的大数据中获利的好方法。许多隐私权倡导者从中看到了一个可怕的警示:我们也许生活在一个大规模监控的时代。最后,许多政策制定者从中看到了新技术能够帮助我们创造一个更好的世界。其实,这项研究与这些都相关,而且正是因为它融合了这么多特征,所以我把它看作了解社会研究之未来的一扇窗。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。