在大数据时代,许多学科领域的研究表面上看来大不相同,但是从数据的视角来看,其实是相通的。随着社会的数字化程度逐步加深,越来越多的学科在数据层面趋于一致,可以采用相似的思想来进行统一的研究。围绕同一问题,不同领域的数据往往能从不同的角度揭示出问题的同一属性,交叉验证、关联互补。跨领域的大数据融合分析的方法可以有别于人类传统的认识问题、思考问题的方法,呈现出一种独特的思维模式,可以让问题的揭示与解决更为便捷、有效。
案例:
蓝点(BlueDot)
2003年“非典”(SARS)流行期间,如今蓝点的创始人兼首席执行官Kamran Khan在多伦多的一所医院里研究传染病。他试图找到一种更理想的早期发现疫情的方法。2014年,他推出了“蓝点”,获得940万美元的风投,公司现雇佣有40名员工,包括专业医生和程序员,共同设计监测程序。“蓝点”运用自然语言处理和机器学习技术,每天筛选全球互联网信息。Khan对新闻媒体表示,“我们可以捕捉到一些突然爆发的新闻,或是来自论坛和博客的小杂音,从而发现某些不同寻常的事情正在发生。”
根据该公司对媒体所披露的内容,“蓝点”的工具大致拥有以下几类信息源:
①每天在本地和国际报纸上用65种语言发表的逾10万篇新闻报道。
②美国疾控中心、世卫组织、联合国粮农组织(Food and Agriculture Organization)和世界动物卫生组织(World Organization for Animal Health)的官方疾疫报告。
③卫星实时气候数据。(www.xing528.com)
④来自代表航空公司的行业组织——国际航空运输协会(International Air Transport Association)的航班信息和票务交易数据。
⑤来自各地政府的公开信息,包括人口数据、可传播传染病的昆虫数据、某区域的人均医生和护士数量以及世界各地的社会经济信息等。
以上数据全部导入一个中央存储库,库里还存有150多种病原体的详细信息。
“蓝点”的运作方式有三大特点:第一,使用自然语言处理和机器学习来训练该算法,关键是要教算法辨别同一个词语在不同语境中的含义,例如,“究竟是蒙古爆发的炭疽病,还是重金属乐队Anthrax——英文名即为‘炭疽病’之意,国内也将这支乐队译为‘炭疽’乐队——举行的一场聚会”。
第二,特别访问全球机票的交易数据,用于预测受感染人群的去向和疫情传播路线。“蓝点”正确预测了本次新型冠状病毒在首次出现后的几天内将从武汉跳转到曼谷、首尔、东京和台北。当然,该工具的预测机制一定比其对外披露的信息要复杂得多。2015年,Khan和牛津大学、哈佛大学的研究员在《柳叶刀》上联合发表了一篇论文,成功预测了寨卡(Zika)疫情从巴西向美国尤其是南佛罗里达州的传播。其预测模型调用了巴西的国际航线、温度图、人口密度、已知和可能的蚊子传播寨卡病毒的范围等数据,预测结果显示美国佛罗里达州接待了来自巴西的大量旅客,并且当地气候适宜,适合蚊子传播寨卡病毒。
第三,“蓝点”暂时不使用社交媒体发布的内容,因为数据太过杂乱,难以消除“噪声”。
在数据汇总入中央存储库后,“蓝点”使用自然语言处理技术,扫描文本中与传染病相关的语句、主题、含义和情绪。经过医学专家和数据科学家培训后的机器学习系统会从中挑选出指向疫情暴发的早期信号。当系统检测到危险信号时,“蓝点”的流行病学家会从科学角度介入,检验结论是否合理,并将报告发送给来自政府、企业和公共卫生部门的客户。这次新型冠状病毒疫情的报告,“蓝点”就已发送给了包括美国、加拿大在内的十几个国家和地区的客户,包括航空公司和医院。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。