首页 理论教育 预测和临近预测方法解析

预测和临近预测方法解析

时间:2023-07-21 理论教育 版权反馈
【摘要】:预测将来是困难的,预测现在却要简单些。临近预测有可能在及时准确地了解政府和公司方面特别有用。这表明,评估任何预测或临近预测时,找一个基准与其进行比较是很重要的。图2.4杰里米·金斯伯格和同事将谷歌搜索数据和美国疾病控制与预防中心的数据结合起来创建了谷歌流感趋势,它可以对流感样疾病的患病率进行临近预测。这两个局限增加了之后临近预测工作的难度,但并不是说之后的临近预测就一定都会失败。

预测和临近预测方法解析

预测将来是困难的,预测现在却要简单些。

研究人员可用于观测数据的第二个主要策略是预测。预测未来是出了名的难,也许正因为如此,预测并不是目前社会研究的重要组成部分(尽管它是人口学经济学流行病学和政治学的一个小却重要的组成部分)。但在这里,我想集中介绍的是一种特殊的预测——临近预测(nowcasting),这个术语来源于“现在”和“预测”的结合。与预测未来不同的是,临近预测试图利用预测出的观点了解世界的现状:它试图“预测现在”(Choi and Varian 2012)。临近预测有可能在及时准确地了解政府和公司方面特别有用。

一个明显需要进行及时准确测量的例子是流行病学。以流感为例,季节性流感每年会导致全球数百万人患病,成千上万人死亡,而且每年都可能出现新的、可导致数百万人死亡的流感病毒。例如,1918年的流感暴发估计造成了5000万~1亿人死亡(Morens and Fauci 2007)。由于需要追踪流感并采取可能的应对措施,世界各国政府都建立了流感监测系统。例如,美国疾病控制与预防中心会定期系统地从全国各地仔细筛选的医生那里搜集信息。尽管这一系统能生成高质量的数据,却存在报告时滞的问题。也就是说,由于从医生那里得到的信息数据需要时间来清洗、处理和发布,美国疾病控制与预防中心的系统发布的都是两周前流感患者的估计数量。但在应对一场新的流行病暴发时,公共卫生官员想知道的是现在有多少流感患者,而不是两周前有多少流感患者。

在美国疾病控制与预防中心搜集数据、追踪流感的同时,谷歌也在搜集有关流感患病率的数据,却是以完全不同的形式。世界各地的人不断利用谷歌进行搜索查询,其中一些诸如“治疗流感的方法”和“流感症状”的搜索信息可能表明搜索人患有流感。但通过这些搜索信息评估流感患病率还存在着诸多问题,因为不是每个流感患者都会进行与流感相关的搜索,且并非每条流感相关的搜索都来自流感患者。

2009年,杰里米·金斯伯格(Jeremy Ginsberg)和同事(其中一些是谷歌的职员,一些是美国疾病控制与预防中心的职员)想到了一个重要而聪明的方法——将上述两种数据资源结合起来。粗略地说,研究人员通过一种统计方法将快速却不准确的搜索数据与准确却滞后的美国疾病控制与预防中心的数据结合了起来,以便快速准确地测量流感患病率。这一结合也可以被理解为,他们利用搜索数据让美国疾病控制与预防中心的数据加速了。

更具体地说,金斯伯格和同事利用2003—2007年的数据,对美国疾病控制与预防中心数据中的流感患病率与5000万个不同术语的搜索量之间的关系进行了评估。这一评估过程完全是针对数据的,不需要专门的医学知识。经过评估他们发现,似乎有45个不同的搜索信息对美国疾病控制与预防中心的流感患病率数据最具预测性。然后,利用他们从2003—2007年的数据中学到的关系,金斯伯格和同事在2007—2008年的流感季节对他们的模型进行了测试,并发现这个模型的确可以进行准确的、有用的临近预测(图2.4)。这些结果被发表在了《自然》杂志上,并获得了媒体的一致称赞。这项被称作谷歌流感趋势的项目也经常被用来说明大数据具有改变世界的力量。(www.xing528.com)

然而,这个成功案例最终令人感到尴尬:随着时间的推移,研究人员发现了两个重要的局限,这使谷歌流感趋势不再像最初那样出色了。第一个局限是,与对最新测得的两次流感患病率数据进行线性外插法的简单模型相比,谷歌流感趋势的表现并没有好很多(Goel et al.2010)。而且在某些时间段,谷歌流感趋势实际上还不如上述简单模型(Lazer et al.2014)。换句话说,拥有大量数据、机器学习和强大计算能力的谷歌流感趋势,其表现并没有明显超过一个简单的、更易于理解的、具有启发作用的模型。这表明,评估任何预测或临近预测时,找一个基准与其进行比较是很重要的。

图2.4 杰里米·金斯伯格和同事将谷歌搜索数据和美国疾病控制与预防中心的数据结合起来创建了谷歌流感趋势,它可以对流感样疾病(ILI)的患病率进行临近预测。图中的数据是美国大西洋中部地区在2007—2008年流感季节时的患病率。谷歌流感趋势最初的预测还是很准确的,但随着时间的推移,其预测的准确度也开始逐渐下降(Cook et al.2011;Olson et al.2013;Lazer et al.2014)。改编自Ginsberg et al.(2009),图3。

因为漂移算法干扰,谷歌流感趋势的第二个重要局限是,从短期来看,对美国疾病控制与预防中心的流感数据,谷歌流感趋势易于给出错误的预测;从长期来看,它的预测能力在逐渐减弱。例如在2009年的甲型H1N1流感暴发期间,谷歌流感趋势给出的预测大大超过了实际患病率,可能出于对全球流感大流行的普遍恐惧,人们倾向于改变他们的搜索行为(Cook et al.2011;Olson et al.2013)。除了这些短期问题,随着时间的推移,谷歌流感趋势的表现开始逐渐衰退。而找出这一衰退的原因很困难,因为谷歌的搜索算法是专有的,在2011年,当人们搜索诸如“发烧”和“咳嗽”等与流感相关的症状时,谷歌似乎会提示流感的搜索词(现在不会了)。作为一个搜索引擎运营商,增加这一功能是完全合理的,但这一功能会导致更多健康人搜索流感,进而使谷歌流感趋势高估了流感的患病率(Lazer et al.2014)。

这两个局限增加了之后临近预测工作的难度,但并不是说之后的临近预测就一定都会失败。事实上,通过采用更谨慎的方法,后来的研究者已经能够避免这两个问题了。

展望未来,融合了大数据资源和研究人员搜集的数据的临近预测研究,预计能从本质上加快任何按一定时间周期重复进行的、存在一定时滞的测量,进而使企业和政府做出更及时、更准确的判断。谷歌流感趋势这样的临近预测项目也向我们展示了,将大数据资源与为研究目的而创建的更传统的数据结合起来会碰撞出怎样的火花。回想一下第1章的艺术类比,临近预测有着将杜尚的现成品艺术作品与米开朗琪罗的非现成品艺术作品结合起来的可能性,为决策者提供更及时、更准确的现状估计以及有关临近未来的预测。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈