实时流感追踪_互动科普

使用社交账号登录

购买价格:
付款方式:

互动科普

主页 > 科学博客 > 专家博客 > John Horgan

实时流感追踪

admin  发表于 2020年01月13日

实时流感追踪

科学家可以通过监测社交媒体实时跟踪流感,从而得出更准确的预测

导语:流感预测对公共卫生具有重要意义,社交媒体平台上的大量数据以及新兴的机器学习模型,为实时流感追踪提供了新方法。

关键词:流感预测;社交媒体;机器学习

 image.png

(图片来源:Pixabay)

传统的流感监测基于医生的报告,描述已经发生的流感疫情,其产生的数据需要数周才能处理完——通常导致卫生主管部门四处追踪病毒,而不是控制病毒。

但是每天,成千上万身体不适的人将其症状的详细信息,以及不知不觉中可能将其位置信息也输入到搜索引擎中或发布在社交媒体上,产生了大量的实时流感数据。如果这些数据能被用来监测流感疫情,并用来准确预测疫情的传播,这将极大地改变公共卫生监测。

强大的计算工具使得通过追踪数字信号来监测流感在人群中的传播成为可能,这些计算工具包括机器学习和不断增长的数据流多样性,后者不仅包括搜索查询和社交媒体,还包括云端电子健康记录和从普查信息中推断出的人口流动模式。现在,实时追踪流感和预测流感趋势的模型极大地改变了公共卫生实践。

流行病学家 Matthew Biggerstaff 说:“我们对这些模型的表现越来越满意”。Biggerstaff在佐治亚州亚特兰大市的美国疾病控制与预防中心(CDC)从事流感防控工作。

2013-14年间,CDC启动了FluSight Network,该网站通过数字建模来预测美国十个地区和整个美国流感季的时间、峰值和短期强度。据Biggerstaff称,流感预测有助于响应者提前计划,从而可以通过疫苗接种和交流传播策略来应对,限制病毒的影响。在该领域取得的进展的鼓舞下,2019年1月,CDC宣布将斥资1750万美元建立一个卓越流感预测中心的网络,每个中心的任务将是提高实时预测的准确性和沟通能力。

CDC在数字流感监控方面处于领先地位,但其他卫生机构也纷纷效仿。“我们一直在努力与合作者一起使用各种数据源开发和应用这些模型。”Richard Pebody说道,Pebody是一名来自伦敦英格兰公共卫生部的流行病学顾问。Pebody表示,提前两到三周预测流感趋势的能力“对于医疗服务规划非常有价值。”

点差交易

2008年,当谷歌将注意力转向流感预测时,数字流感监测发生了转变。谷歌的监测平台(也称为谷歌流感趋势),使用机器学习来拟合流感相关的搜索和CDC美国门诊流感样病例监测网络(ILINet)收集的时间序列数据。ILINet是美国流感监测的基准,该网络有3500家参与的诊所,每个诊所计算有多少人出现喉咙痛、咳嗽以及高于37.8°C的发烧,而且这些症状只由流感导致。谷歌流感趋势的目标是比ILINet数据更早地估计流感趋势。

然而,两次引人注目的失败掩盖了媒体对其上市的大肆宣传。第一次,谷歌流感趋势没有预测到2009年春季的H1N1流感疫情。然后,它将2012-13年流感季的规模高估了140%

Mauricio Santillana是马赛诸塞州波士顿市哈佛医学院的一名计算科学家,他表示,该系统失败是因为大多数选出来的搜索关键词只是季节性的,和流感活动的相关性有限,从而使得预测混乱且不准确。在H1N1疫情预测失败后,谷歌修改了其流感追踪算法。但是,在公司的搜索引擎软件升级后,该算法没有被例行重新校准,这就导致了后来的其他问题。2015年,谷歌完全放弃了该平台,尽管它仍将一些匿名数据提供给研究人员进行流感追踪。

谷歌流感趋势的消亡引起了人们对大数据在追踪疾病中的作用的担忧。但伦敦大学学院的计算机科学家Vasileios Lampos表示,流感预测的准确性正在提升。他表示:“我们有更多的数据,并且计算工具已经得到了改进。我们已经有大量时间来处理它们。”

Santillana指出,在谷歌流感趋势失败后的数年里,机器学习的性能已经显著提升。他表示:“通过更复杂的算法,机器学习可以自动忽略虚假相关的关键词,因此预测将更加可靠。”

竞争优势

CDC举办的年度预测挑战赛是新的建模方法的试验场。每年大约有20个团队参赛,优胜者是那些建模与ILINet基准拟合地最好的团队。没有这些模型时,CDC的方法是,基于从先前流感季收集的ILINet数据对各个地区和整个美国的预测,来预测未来的流感趋势。但是在2017-18年的流感季期间,挑战赛中的大多数模型得到的预测结果比使用ILINet的历史基线更准确。CDC现在将挑战赛中表现最好的几个模型整合到了其FluSight系统中。

在过去的四年中,CDC挑战赛的获胜者是宾夕法尼亚州匹兹堡市卡耐基梅隆大学的计算机科学家Roni Rosenfeld领导的团队。Rosenfeld的团队(也称为Delphi研究组)的预测基于两个互补的系统。其中一个是名为Epicast的在线众包网站,其允许人们表达对当前流感季可能如何发展的看法。Rosenfeld表示:“Epicast充分利用了群体的智慧。任何单个做出回应的人的观点都不如所有回应者的综合观点准确。”

该团队的第二个系统依赖于机器学习算法,该算法反复比较当前流感季中观察到的趋势与过去几十年中观察到的趋势。该算法利用历史ILINet数据以及来自搜索引擎和社交媒体的数据,来生成所有可能的季节性轨迹的分布。然后,它会模拟当前流感季的不同之处,以及接下来可能出现的变化。 

除机器学习外,研究人员也依赖于工作方式完全不同的机理模型。机器学习仅寻求数据中的模式,而机理模型依赖于流感病毒如何在人群中传播的特定假设。马萨诸塞大学安姆斯特分校的公共卫生与健康科学学院的生物统计学家Nicholas Reich表示:“这通常需要对疾病传播方式的生物学和社会学理解。例如,机理模型考虑了易感人群、特定病毒的传染性以及感染者和未感染者之间的社会混合模式。”

在马赛诸塞州波士顿市的东北大学,研究流行病建模的计算科学家Alessandro Vespignani一直在使用基于代理的方法预测流感,他将这种方法描述为“机械建模2.0”。代理只是包括人群在内的互动实体,Vespignani已经对3000万个个体进行了建模,以代表各种背景下的全美人口,并模拟了流感病毒如何在工作场所、家庭和学校的这些人群中传播。基于代理的方法使研究人员能够以高空间分辨率放大疾病传播模式。不足之处是这些模型需要高性能计算,Vespignani表示:“而且它们还需要大量数据,因为它们需要非常详细的社会描述。”

Vespignani和Santillana现在正在合作研究将机器学习和基于代理的方法相结合,以创建他们声称更强大的流感预测模型。

数量优势

研究人员已经开始将模型组合成“集合”,这些集合比单个模型具有更强大的预测能力。Biggerstaff 表示:“这是我们从挑战赛中学到的经验,组合的效果更好。”这无疑是FluSight Network的经验,它是由四个独立研究团队组成的联盟,这些团队在一个多模型集合中进行协作。该集合将21个模型连接成一个单一的复合模型,这些模型中部分使用机器学习,另一部分则使用机理模型,该复合模型在最新的CDC流感预测挑战赛中获得第二名,仅次于Rosenfeld的团队。

在这个案例中,这些模型使用称为堆叠(stacking)的方法进行组合,该方法根据模型在先前流感季中的表现来权衡它们的贡献。Reich指导了FluSight Network四个参与团队中的一个团队,他认为,集成方法可以最优地利用组件模型的特质。他表示:“堆叠方法就像在交响乐中指挥各个模型。你希望每个模型都在恰当的音量上。”

然而,在其能被常规地纳入公共卫生预防工作之前(就像天气预报被用来防范暴风雨那样),模拟流感预报还面对着一系列困难。为了真正有效,即使是最好的模型也需要配合政策措施,这些政策措施会考虑到软件所揭示趋势。但Vespignani表示,目前尚不完全清楚,决策者和卫生官员对于在真实世界中使用模拟流感预测的信心如何。他说,这些人中大部分对计算机模型的工作原理了解甚少,而且这些模型在提前2-4周预测流感时最准确,这实际上并没有提供足够的时间来将资源分配到最需要的地方。Vespignani表示,能够提前6-8周准确预测流感季的峰值和强度的模型将更有用。

Santillana表示,我们需要进一步研究社会行为、疫苗接种计划、菌株组成、人群免疫力和其他因素是如何影响模型的准确性的。不过,研究者也需要了解空间尺度如何影响预测。例如,CDC的预测仅限于国家和地区级别,但研究人员已经开始考虑城市尺度和全球尺度的预测前景。

同时,在缺乏监测数据的发展中国家,目前正在开展工作以提供支持机器学习的预测。Lampos使用来自美国的监测数据对模型进行了训练,并称该模型可以准确地预测法国、西班牙和澳大利亚的流感,而无需借鉴这些国家的历史数据。他表示,这种方法可以通过分析手机和其他设备上的流感搜索查询的频率,在缺乏类似的监测基础设施的较贫困地区工作。Lampos现在计划在非洲国家测试他的模型。

要让流感预测像天气预报一样成为常规并被广泛接受,还有很长的路要走。但Santillana表示,流感预测的进展很快。他说:“预测结果正变得越来越好。”



作者:Charles Schmidt是缅因州波特兰市的自由科学作家。

翻译:曾小欢

审校:郭晓

原文链接:https://www.scientificamerican.com/custom-media/influenza-outlook/real-time-flu-tracking/


全部评论

你的评论