大数据统计疫情_如何使用大数据和机器学习提高疫情初期的决策质量

引言:如何在有限的时间内根据不完全信息做出最佳决策已成为决策者面临的一大挑战。这种新的冠状病毒流行病正在迅速发展与三个月内5000例确诊的非典病例相比,疫情爆发不到一个月。

如何在有限的时间内根据不完全信息做出最佳决策,已成为决策者面临的一大挑战面对这样的挑战,世界卫生组织(世卫组织)突发卫生事件和风险评估部主任奥利弗·摩根博士做了一项有价值的研究。

何提出,定量数据工具和机器学习可以提高疫情期间的决策质量

爆发的三个阶段和数据工具

通过观察过去十年的结核病控制、艾滋病预防和埃博拉疫情经验,奥利弗·摩根将此次爆发分为三个阶段,即调查阶段、疫情扩大阶段和干预控制阶段

同时他总结了各种数据量化工具,包括数据可视化、数据管理、统计分析、全基因组测序、机器学习、地理空间分析等手段Oliver Morgan,

,提出上述数据量化工具可以在疫情的不同阶段混合使用,以提高决策质量和评估决策效果

[1]调查阶段:用r语言实现数据可视化

调查阶段是疫情干预的第一步

这一阶段的特点是不确定性强,病例数量少,大多数病例来自对死亡或康复患者的溯源在

-

的这个阶段,最重要的是要画出一幅疫情图和病例图,因为这样可以很快地指导应对疫情的方法。

数据可视化可以尽早显示爆发的程度,是一个很好的纵向工具。目前,许多数据可视化工具正在迅速发展,尤其是R语言。

作为一种计算机编程语言,r适用于统计计算和绘图,并能完成数据分析、统计建模和数据可视化。帝国理工大学的Thibaut Jombart博士和一组科学家创建了一个r包OutbreakTools,并定义了一个新的obkData类别来存储流行病数据。

obkData可以存储多种数据类型,包括:

1)个人数据(年龄、性别、症状发作)

2)时间戳样本和记录(拭子、血清学、保存编号等。)

3)基因序列

4)联系信息

5)背景环境信息

6)系统进化树

强大的存储功能使obkData适用于流行病数据的可视化和后续分析

例如,下图显示了爆发的时间和国家。图片中的每个黑点代表一个人,横轴代表时间,背景中的每个颜色代表一个国家。

大数据统计疫情

下图描述了城市中不同性别的流行性疾病患者的分布情况,其中红色代表女性,蓝色代表男性

大数据统计疫情

同时,obkData的感染者接触史记录可以提前识别可能被感染的旅行者。这样,相关部门可以提前做好医疗服务准备。

OutbreakTools还包括预测功能。例如,下面两个图中的每种颜色代表不同的感染日期,通过感染强度可以预测流行病的衍生状态

大数据统计疫情

但在疫情开始时,一个常见的问题是缺乏数据,这也将对疫情预测造成障碍

的问题在这里用R和Python(也是一种编程语言)解决了在R和Python中有许多方法来处理缺失值和异常值,从而更快速有效地集成信息,并为决策者提供支持。

此外,R和Python可以自动处理数据,减少数据清理、管理和准备的时间,从而提高疫情期间的决策效率。

[2]疫情扩展阶段:使用全基因组测序(WGS)和机器学习

疫情扩展阶段的重点不仅是部署人员和后勤,更重要的是找出疫情的致病因素,从而抑制疫情的蔓延。

随着全基因组测序的日益普及(WGS),科学家可以通过对提取的病例样本的全基因组测序来分离病毒并确定潜在的干预方案。

全基因组测序是对未知基因组序列物种的个体基因组测序在测序过程中,研究人员收集了DNA样本,然后确定了组成人类基因组的30亿个核苷酸。以

大数据统计疫情

为例,在这次新的冠状病毒流行中,国内研究团队收集了武汉金印滩医院5例重症肺炎患者的临床资料和支气管肺泡灌洗液(BAL)样本,并采用下一代测序技术检测了从灌洗液中提取的核酸最后,研究小组分离出病毒,并建立了最有可能的系统进化树。

测序结果显示,5份样品中均存在一种未知的β冠状病毒(非典型肺炎和中东呼吸综合征也属于该属)。

此外,它们都包括一个完整的开放阅读框8基因区,进一步表明新病毒可能起源于蝙蝠截至2月1日,

,全世界已经检测到大约20个新的冠状病毒基因组序列,它们都非常接近,并且所分析的病毒没有太多的多样性。这表明新的冠状病毒能够适应和传播而不发生突变。

因此,使用全基因组测序可以获得大量信息。

但是使用全基因组测序数据需要大量的计算能力,处理大量的数据和应用复杂的数据处理和分析方法,这超出了大多数传染病专家的能力,并且需要数据专家的干预

机器学习是另一种在爆发时可用的工具,尽管它目前还处于初级阶段。

机器学习专门研究计算机如何模拟或实现人类学习行为,以获取新知识或技能,重组现有知识结构,并不断提高自己的绩效

机器学习已被用于分析埃博拉疫情。类似于R和Python,它可以处理数据丢失和预测流行病传播趋势。

世界卫生组织目前使用机器学习从大量在线数据中检测新的公共卫生事件警报,并使用开源传染病智能(EIOS)平台将自然语言处理技术应用于数据处理、分类和组合这些新工具

大数据统计疫情

的应用可以进一步扩展到社交媒体数据、消费模式数据、旅行数据等。,从而进一步了解消费者行为与疫情爆发之间的关系。

例如,移动电话数据可用于了解人的流动模式,或者遥感数据可用于了解环境中的风险。

将这些数据源与其他传染病的数据分析相结合,以帮助决策者实时监控疫情的发展

[3]控制干预阶段:通过建模优化干预措施

控制干预阶段的特点是对疫情的干预措施进行强有力的监控和持续优化

的有效流行病干预需要一个良好的后勤计划,以确保物资能够及时运送到最需要的地方如果低估了疫区的需求,人们可能会死亡,疫情也可能得不到很好的控制。高估需求将增加成本和资源浪费,并减少其他疫区的供应。

。如果计算物质需求所用的时间太长,供应可能会延迟,流行病控制措施的效果将会减弱

显然,当爆发的规模和演变不确定时,在物流规划中很难避免这些问题。通过提高疫情定量评估的准确性和及时性,提供材料和医疗服务可以优化疫情应对措施。

决策者可以通过组织建模者、操作者和现场干预团队之间的有效合作来了解流行病的供应需求

为应对2017年孟加拉国的白喉疫情,伦敦卫生与热带医学院和世卫组织利用现场团队收集的数据模拟疫情规模,并估计所需的急诊床位和医疗团队数量。在西非埃博拉爆发期间,还使用了定量方法来估计隔离床的需求。在供应有限的情况下,优先分配疫苗等资源也很重要。

Oliver Morgan博士和其他人的研究表明,大数据和机器学习可以在爆发期间有效地管理数据,从而提高爆发期间的决策质量。

大家都在看

相关专题