首页 理论教育 智能手机应用:机器学习预测传染性风险

智能手机应用:机器学习预测传染性风险

时间:2023-06-21 理论教育 版权反馈
【摘要】:个人是否有可能感染新冠病毒,可以从他是否接触过病毒检测呈阳性的人来进行估计。但是,新冠病毒的感染期早在阳性检测结果出来的数天之前就已经开始了,标准的数字接触追踪存在一定的延误期。基于机器学习的数字接触追踪App能够扩大跟踪和警示的范围。幸运的是,在机器学习中间有一些基于潜在变量的方法用于处理这个问题。

智能手机应用:机器学习预测传染性风险

约书亚·本希奥(Yoshua Bengio)

图灵奖获得者,蒙特利尔大学教授、魁北克人工智能研究所科学主任

作为蒙特利尔大学教授,凭借着在深度学习技术的突出贡献而获得图灵奖,这是计算机科学领域的最高荣誉。正是深度学习技术掀起了人工智能的复兴浪潮,也一步步推动了无人驾驶汽车、即时语音翻译以及人脸识别成为可能。

新冠病毒感染的一个重要事实是,传染途径主要为近距离接触感染。另外一个重要事实是,在新冠肺炎症状出现之前和之后不久,感染者就已经具备传染性了。个人是否有可能感染新冠病毒,可以从他是否接触过病毒检测呈阳性的人来进行估计。

数字接触追踪(digital contact tracing)是指通过手机发送和新冠肺炎相关的信息,比如接触者的阳性检测报告。与数字接触追踪相比,人工接触追踪(manual contact tracing)的局限性在于需要消耗大量的时间。

目前数字接触追踪的标准方法是只传递一个人的病毒检测结果是否呈阳性的二元信息。但是,新冠病毒的感染期早在阳性检测结果出来的数天之前就已经开始了,标准的数字接触追踪存在一定的延误期。如果我们能够缩短延误期,那么就能够有效减少病毒的传播。

事实上,判断个人感染的风险等级不仅是阳性/非阳性这样简单的二元问题。新冠肺炎存在多种症状,不同症状的严重程度也不同。此外,之前的健康状况、年龄、性别、接触人群的风险等级,以及接触发生时间等也会对疫情的进程产生影响。因此,需要将这些信息整合起来,进行更加完整的分析和判断。

分析大量信息并进行判断不是一件容易的事,最好的解决方案是用机器学习方法,分析大量碎片信息,从而确定个体是不是已经被感染了,或者处于感染的哪个阶段。如果能做到这一点的话,那些感染风险等级高的人需要居家隔离,并向之前接触的人发送风险信息;而那些风险不是特别高的人需要谨慎一些,但不用接受强制隔离。

基于机器学习的数字接触追踪App能够扩大跟踪和警示的范围。但需要注意的是,数字接触追踪并不是完全取代人工接触跟踪,其原因是人工接触跟踪可以发现手机无法捕捉的人际关系,因此两种追踪方式是相互补充的关系。

数字接触追踪工具中积累的信息对公共卫生管理来说也是很有价值的。举例来说,公共卫生管理部门可以根据数字接触追踪的分析结果来安排核酸检测的优先顺序,风险更高的人或者有接触史的人需要优先测试。此外,数字接触追踪还可以提供很多重要的信息,比如根据某些地区疫情风险的变化情况,在大量人群涌向医院进行病毒测试之前,提前预测是否可能出现疫情的大暴发。(www.xing528.com)

如果我们已经知道人际接触的全局网络图,那么就可以通过机器学习的方法,通过迭代获取网络中每个个体的感染风险。但问题是,我们并不了解人际接触的全局网络图,另外一个需要考虑问题是这种迭代在算力、带宽方面的成本可能会比较高。

如果机器学习的预测器足够简单的话,另一种做法就是使用联邦学习(federated learning),即不需要拥有一个中央的训练服务器,而是每个人在手机上进行训练。但这种方法的一个问题是,每部手机上都要进行多次迭代计算,另外中央服务器和手机客户端之间也需要进行大量的参数通信交换。

我们的实验是采用混合方法—既进行手机之间的数据传输以计算风险,同时手机和服务器之间也进行数据和信息的交互,从而能够更好地训练风险预测器。手机之间传递的信息只是关于个人感染风险的信息更新,每个人每天能够收发4次信息。此外,那些同意分享数据的用户可以向服务器发送自己的数据。利用去识别化的方法,发送方的手机号码和姓名这些信息被脱敏,服务器只获取用户的症状、感受,以及这个人的病毒测试结果。

在我们的实验中,风险预测器会接收以下的信息输入:自身现有的疾病,年龄、性别、行为有关的信息(例如在户外或者封闭空间里面或者在工作场所有没有戴口罩,工作的地方有没有玻璃隔挡,有没有坐过公共交通工具,家里住多少人),病毒检测报告的结果,在过去的14天里的症状,以及和多少人接触过,接触多久,相隔多长距离。

根据个人的情况,风险预测器接收到的数据长度是不同的,即数据输入长度是可变的。这就意味着很多标准的机器学习算法,比如EM算法,无法处理这些数据了。在我们的实验中,我们采用变换器来解决这个问题。

现在还有一个重要的问题是,预测的目标是什么,或者说在实际应用中一个人应该向另外一个人发送什么样的信息?比如说艾丽斯在5天之前碰到鲍勃,随后艾丽斯现在发现被感染了,应该给鲍勃发什么信息呢?最有用的、最相关的信息就是评估艾丽斯在5天前接触鲍勃的时候的传染力有多少。因此预测的目标就是感染者在过去14天里面的每一天的传染力有多强。

我们并不知道传染力的真实数值是多少,只能使用测试结果作为代理信息。但即使是测试结果,也存在假阳性、假阴性的错误。幸运的是,在机器学习中间有一些基于潜在变量的方法用于处理这个问题。

在实验中,我们建立了一个生成模型去捕捉个体层面的信息,包括人们如何移动,如何通过接触感染,他们的病情。我们根据已知的医疗信息调整模型,使模型与人口流动性以及医疗等已知数据保持一致。经过实验,我们发现和标准数字跟踪的方法(只传递阳性/非阳性检验结果)相比,使用人工智能的数字接触追踪模型可以大幅减少病例的数量。

通过使用基于机器学习的数字追踪技术,我们可以充分利用数字追踪和人工追踪两者的优势,并扩大人工追踪的范围。同时,我们可在不损害隐私或人权和尊严的前提下达到目标。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈