新型冠状病毒肺炎是一种新的传染病,在我国,特别是在湖北省武汉市造成了非常严重的流行性感染和死亡率。因为它是一种新病毒,新的冠状病毒核酸是目前主要的诊断标准。然而,发现一些患者的核酸检测几次为阴性,但是CT和其他症状显示患者已经感染了新的冠状病毒。结果,一是为疾病的预防和治疗挖了一个大洞。许多病人无法确诊,只能被送回家隔离,这可能会导致进一步的病毒传播。另一个是病人推迟了治疗,他的情况变得更糟。根据国内医学学术期刊《中国流行病学杂志》的一篇论文,从中国疾病预防控制中心“新型冠状病毒肺炎应急反应机制流行病学组”获得的“粗病死率”为2.3%,其中湖北省“粗病死率”为2.9%,而湖北省以外为0.4%,前者是后者的7.3倍最重要的原因之一是没有及时诊断,导致感染不能及时治疗,导致疾病迅速发展和恶化直至死亡。重症患者从发病到住院的平均时间为9.84天,等待近10天错过了最佳时间。
随着我们对新冠状病毒认识的加深,除了核酸检测之外,感染新冠状病毒的患者也可以通过医生的临床诊断进行鉴定。2月13日,湖北省卫生委员会官方网站发布疫情,将临床诊断病例数纳入确诊病例数予以公布。根据该报告,湖北省报告了14,840例新的冠状肺炎病例,包括13,332例临床诊断病例,即只有1,508例通过阳性核酸检测得到确认。新冠状病毒感染的临床诊断率达到89%,显示了临床诊断在新冠状病毒诊断中的重要作用。然而,目前新冠状病毒感染的临床诊断仍然需要依靠有经验的医生。对于普通医生来说,诊断不能通过临床经验做出。因此,如何使普通医生在短期内具备新冠状病毒感染的临床诊断经验,将对疫情的快速防控起到重要作用
新冠状病毒的诊断面临以下迫切问题:
(1)诊断准确率不高:新冠状病毒诊断的核酸检测准确率不高,导致患者长期诊治失败,病情迅速恶化甚至死亡;
(2)诊断速度慢:新冠状病毒累积的疑似病例数量相对较大。未能做出快速诊断将导致病毒的进一步传播。
(3)有经验的临床诊断医生很少:临床诊断需要有经验和有经验的医生,而大面积的医务人员感染和高强度的工作导致普通医生不堪重负,更不用说有经验的医生了
是疫情能否逆转的重要决定因素,如何解决上述诊断准确率低、诊断速度慢、缺乏有经验的临床诊断医生等问题。
我们可以利用人工智能机器学习算法学习和训练资深医生的临床诊断经验,训练和完成一个新的高准确率的冠状病毒感染识别模型,以辅助医生进行快速的临床诊断。根据医生的诊断数据和诊断结果,在机器学习中使用监督学习模型可以训练出
由于诊断结果是感染或无感染,所以它是一个两级模型。
使用人工智能机器学习算法训练新冠状病毒感染的临床诊断和识别模型:
总体模型序列构建过程如下:
1,数据准备:
新冠状病毒感染的临床诊断依赖于包括流行病学史调查数据、患者临床表现数据和一些实验室检查数据在内的数据流行病学史调查资料
:
(1)发病前14天内有病例报告的武汉市及周边地区或其他社区的旅行史或居住史;
(2)在发病前14天内接触过来自武汉市及周边地区或有病例报告的社区的发热或呼吸道症状患者;
(3)聚集性疾病;
(4)曾接触过新型冠状病毒感染者
:
的临床表现资料主要以发热、乏力、干咳为特征如果一个人发烧并伴有流鼻涕、鼻塞和喉咙痛;在一些患者中可以发现乳酸脱氢酶升高。在一些危重病人中可以看到肌钙蛋白升高。新发肺炎的影像学特征包括早期的多个小斑块和间质改变,尤其是在肺外区。它进一步发展成多个磨玻璃阴影和肺部浸润阴影。在严重的情况下,肺部可能会发生硬化,胸腔积液很少。
根据流行病学历史和临床表现准备新的冠状病毒特征数据(由于不能获得患者诊断数据,数据库只能根据诊断方案构建如果已经掌握了患者新牙冠的诊断数据的单位可以联系作者以合作研究诊断模型)
为了获得训练模型的准确性和泛化能力,不仅可以识别感染病例,还可以识别非感染病例。有必要在真实和虚假病例之间保持数据平衡,即诊断结果是准确的,并且诊断结果与确认感染的比例不同。
52,数据处理:
诊断数据中有许多是字符类型,需要转换成数字类型
8-将连续数据、体温和发病天数(如“体温”数据)离散化为正常和异常数据
10-3,特征工程:
需要选择使用哪些特征数据作为训练临床诊断模型的特征。由于流行病学史和临床特征数据已经被用作诊断中的临床诊断数据,因此不需要对特征数据进行进一步的分析,并且这些特征被直接用作训练模型的特征数据
4,模型训练:
按照7:3的比例分割加载的特征数据,70%作为训练模型数据,30%作为测试验证模型数据。选择分类模型中的逻辑回归算法和梯度提升决策树进行诊断模型训练
模型的训练需要不断调整超参数来不断优化模型。模型超参数的调整需要算法工程师的参与,算法工程师对算法有着深入的了解,对于普通的业务人员来说可能是茫然的。可以采用自动参数调整设置,模型参数的自动优化/推荐可以帮助不熟悉算法的业务人员训练模型。
12-5,模型试验(验证):
使用分割的30%数据进行模型验证,以验证训练好的诊断模型对新数据的预测能力模型的测试结果试图实现低方差和低偏差,低方差使模型稳定,而低偏差使模型高度精确。
6,模型性能评估:
评估训练模型的性能,并检查评估指标,如模型性能的准确率
从以下评价指标可以看出,如混淆矩阵,有10个预测为0,真值为0;实际预测值为1的有12个,实际预测值为0的有1个,精度为0.9565。加权F1值为0.9563因为模型性能指数已经超过0.8(80%),所以它可以作为模型部署。此外,还选择了梯度提升决策树模型,其性能与逻辑回归模型相似。
15-7,模型部署:
在临床诊断中部署训练有素的模型,以协助医生对新冠状病毒感染患者进行临床诊断该模型被部署为RESTFUL服务,以便于调用。
以json格式输入诊断数据:
患者编号、疫区或患者社区的旅行史、患者接触史、疫区人员的接触史、是否有聚集活动、体温、疲劳、干咳、发病天数、鼻塞、流鼻涕、咽喉痛、腹泻、呼吸困难、血氧浓度、外周血白细胞总数、淋巴细胞计数、肝酶、乳酸脱氢酶、肌球蛋白、肌红蛋白、肌钙蛋白、C-反应蛋白(CRP)、红细胞沉降率、D-二聚体、血红蛋白 肺炎影像学特征
例患者125,否,是,否,否,否,38.5,否,是,4,否,是,否,正常,正常,正常,正常,正常,高,正常,正常,正常,减少,
17。 可以看出,在输入诊断数据之后,通过使用训练的模型进行预测,并且预测结果是1,这是诊断
为了能够快速训练和完成新的冠状病毒感染诊断和识别模型,需要一个成熟的全方位软件支持,包括数据访问、数据处理、模型训练、模型评估和模型部署的全过程。上述模型是基于可视化数据挖掘平台Smartbi Mining构建的。它具有全过程、可视化、模型参数自动化和一键模型部署的特点。它可以快速建立高性能的新型冠状病毒感染诊断和识别模型,并快速部署用于辅助临床诊断。
具体来说,使用Smartbi Mining构建模型具有以下优势:
(1)建模整个过程:支持从数据访问、数据处理、模型构建、模型评估和模型部署的整个过程
(2)操作的完全可视化:支持拖放操作以完成建模、挖掘过程的可视化和挖掘结果的可视化
(3)模型参数智能自动推荐:模型参数的自动调整可以大大降低人员的难度,简化最复杂的挖掘部分。
(4)与商业智能无缝接口:挖掘和商业智能呈现集成到同一个产品中,挖掘可以使用商业智能丰富的可视化呈现;商业智能还可以使用数据处理和分析挖掘的结果。
本文没有过多地讨论机器学习算法的性能和优缺点,而是着重于使用成熟的人工智能机器学习产品来构建新的冠状病毒感染临床诊断和识别模型,以帮助医生快速进行临床诊断。当类似的突发公共卫生事件发生时,可以争取时间对患者进行快速诊断、快速隔离和快速治疗,降低病毒传播速度和患者死亡率。
由于缺乏真实数据,只能从互联网上收集数据进行测试本文训练的模型只能用于研究,不能用于实际生产。如果能够获得真实的数据,训练好的模型可以用于新冠状病毒肺炎的实际临床诊断。