当地时间3月17日,预印医疗平台medRxiv发布了一项名为“基于机器学习的严重Covid-19感染患者生存预测模型”的研究结果(无同行评审)这项由29名科学家联合进行的研究,使用最新的可解释机器学习算法来揭示预测COVID-19(新发肺炎)患者存活率的生物标记物,并有望加强对新发高危患者的早期干预,降低死亡率。
研究团队来自华中科技大学同济医学院附属同济医院、华中科技大学人工智能与自动化学院、剑桥大学植物科学学院等。本文作者是华中科技大学人工智能与自动化学院的袁烨教授、同济医院麻醉科的徐辉和急诊(重症)内科主任李树生。
名研究人员收集了武汉同济医院收治的404例COVID-19感染患者的血样数据,并进行回顾性分析。通过机器学习工具,研究小组最终选择了三种生物标志物来预测个体患者的存活率,准确率超过90%:乳酸脱氢酶(LDH)、淋巴细胞和hs-CRP(高敏C反应蛋白)
特别是,只有较高的乳酸脱氢酶水平指数才能用来区分绝大多数需要立即治疗的病例。研究人员表示,这一发现与当前的医学知识一致,即高乳酸脱氢酶水平与各种疾病中发生的组织分解有关,包括肺部疾病,如肺炎。
在现阶段,对疾病的严重程度进行快速、准确和早期的临床评估是非常重要的。然而,目前还没有明确的生物标志物作为区分需要立即治疗的患者的标准。
在本研究中,作者使用了最先进的机器学习框架,表明上述三种生物标志物能够准确预测疾病的严重程度,从而大大减轻了临床参数监测的压力和其他相关的医疗负担
的研究人员开发了一个基于XGBoost机器学习的预测模型。通过使用患者的最新血液样本,该模型能够以90%以上的准确率预测COVID-19重症患者的存活率。使用其他血液样本可以达到90%的预测精度
本研究提出了一个简单、可操作的公式,可以快速发现和早期干预新加冕的高危患者,并有可能降低其死亡率。
研究样本和模型培训
研究人员执行分类任务,输入一般、严重和危重患者的基本信息、症状、血样和实验室检查结果(包括肝功能、肾功能、凝血功能、电解质和炎症因子),并在检测期结束时将其与临床后果(存活或死亡)对应起来
研究样本为2020年1月10日至2月20日在同济医院收集的404例患者的医疗信息在这404名患者中,213人康复,其余191人死亡。作者说,高死亡率与在指定医院同济医院治疗的最严重病例有关。研究人员使用标准病例报告表格收集医疗记录,包括流行病学、人口统计学、临床、药学、护理和死亡率信息。
研究人员使用375个患者信息进行算法开发,29个病例作为验证集。
名研究人员将患者数据分为训练集、测试集和其他附加验证集训练和测试组包括375名患者,而验证组包括29名患者。训练和测试集中的样本数按7: 3的比例设置,然后进行5次交叉验证。
验证集中的患者都是重症患者,因为他们在临床结果方面最不可预测根据临床症状,发热是最常见的初始症状(49.9%),其次是咳嗽(13.9%)、疲劳(3.7%)和呼吸困难(2.1%)375例患者的年龄分布为58.83±16.46岁,其中男性占58.7%其中,武汉市居民占37.9%,家族聚集性病例占6.4%,医务人员占1.9%。
患者的年龄、性别、流行史和其他特征
虽然大多数患者在整个住院期间采集了多个血样,但模型培训和测试仅使用患者的最新血样记录作为输入,以获得用于评估疾病严重程度、区分需要立即医疗救助的患者以及准确匹配每个标签的相应功能的关键生物标记
名患者的三个生物标志物的中值和25和75的
百分位值是死亡风险的最相关临床特征
名研究人员使用一个名为XGBoost的分类器作为预测模型。XGBoost是一种高性能的机器学习算法。由于它的递归决策系统基于基于树的方法,因此具有巨大的可解释性。模型的输出对应于患者的存活率。研究人员将幸存的患者分为0,死亡的患者分为1
研究人员没有采用黑盒建模策略的原因是其内部建模机制通常难以解释。在XGBoost中,每个单独函数的重要性取决于它在树的每个决策步骤中的累积使用这样,可以获得测量标准来表征每个特征的相对重要性,这对于评估模型结果中最显著的特征尤其有价值,尤其是当研究与临床医学参数相关时
为了评估死亡风险的标记,研究人员通过特征选择过程评估了每个患者参数对算法决策的贡献XGBoost根据函数的重要性对其进行排序。该算法选择了三个最重要的临床特征:乳酸脱氢酶、淋巴细胞和hs-CRP。因此,它们被设定为关键特征
根据其在多树XGBoost算法中的重要性,研究人员对10个关键临床特征进行了排序。LDH、淋巴细胞和hs-CRP排名前三位的
结果表明,该模型无需考虑入院时的初始诊断即可准确预测患者的预后。
此外,附加验证集的性能类似于训练和测试集的性能,这表明该模型捕获了与患者生存率相关的关键生物标志物。同时,该算法结果进一步强调了乳酸脱氢酶作为患者生存率的关键生物标志物的重要性
训练/测试分割和附加验证集模型性能的三个关键特征,F1得分(F1得分)是算法准确率和召回率的调和平均值,最大值为1,最小值为0
根据对LDH、淋巴细胞和hs-CRP重要性的发现,研究者进一步构建了一个简化的临床适用的决策模型,即单一决策树。由于24名患者的三个主要生物标志物中至少有一个不完整,研究人员利用剩余的351名患者确定了一个单树XGBoost模型。
仅仅意味着研究人员已经选择了模型中表现最好的树,并且可以通过使用三个关键特征及其阈值来预测患者的死亡或存活。
根据测试数据集选择最佳树,其准确率
该模型显示100%的死亡预测准确率和90%的存活预测准确率一般来说,无论是多树XGBoost模型还是单树XGBoost模型,生存和死亡预测模型的精度、宏观和加权平均得分总是超过0.90。
最后,大多数患者在住院期间接受了多份血样研究人员用数千份额外的血液测试结果验证了该模型,发现预测准确率达到90%此外,相关结果进一步表明,该模型可以应用于任何血液样本,而不管患者的临床结果如何
早期识别高危患者,快速优先
研究人员表示,这项研究的意义是双重的首先,一般的相关研究只会“提供高风险因素的范围”,而这种模型提供了一种简单而直观的临床试验,从而可以准确而快速地量化死亡风险
如果医生事先知道某些疗法会对某些病人产生不满意的治疗效果,在病情变得更严重之前,医生可以采取不同的方法。应用该模型的目的是在不可逆病变发生之前识别高危患者。
其次,任何医院都可以很容易地收集患者的乳酸脱氢酶(LDH)、淋巴细胞和hs-CRP(超敏C-反应蛋白)这三个关键的信息指标在拥挤的医院中医疗资源短缺的情况下,这种简单的模型可以帮助快速确定患者的优先级。
例患者LDH水平的升高可反映组织或细胞的破坏,被认为是组织或细胞损伤的常见症状。血清乳酸脱氢酶已被确定为特发性肺纤维化严重程度的重要生物标志物(IPF)
在严重肺间质疾病患者中,LDH增加是显著的,并且这是患者肺损伤的最重要的预后指标之一因此,对于严重COVID-19患者,LDH水平的增加表明肺损伤的严重性增加。
研究小组指出,更高的血清hs-CRP值也可用于预测严重COVID-19患者的死亡风险。hs-CRP的增加是急性呼吸窘迫综合征(ARDS)预后不良的一个重要指标,它反映了炎症的持续状态。
值得注意的是,这种持续性炎症反应的结果可以从死者COVID-19的尸检中看出,即肺中出现大量灰白色病变,组织切片中有大量粘性分泌物从肺泡溢出。
最后,研究结果还表明淋巴细胞可能作为潜在的治疗靶点,这得到了临床研究结果的支持。此外,包括北京中日友好医院呼吸科主任曹斌的团队在内的研究人员先前已经证明淋巴细胞减少是COVID-19患者的共同特征,并且可能是与疾病严重程度和死亡率相关的关键因素。
与严重急性呼吸综合征和呼吸窘迫综合征患者肺泡穿透和抗原提呈细胞(APC)损伤途径相同。新发肺炎患者肺泡上皮细胞受损可诱导淋巴细胞浸润,导致淋巴细胞持续减少。先前对
的患者活检研究表明,外周血中CD4和CD8 T细胞的数量大大减少,并且它们的状态被过度激活此外,也有研究表明淋巴细胞减少主要与CD4和CD8 T细胞减少有关。因此,淋巴细胞可能在COVID-19中发挥明显作用,值得进一步研究。
的作者说这项研究也有一定的局限性。首先,由于这种机器学习方法纯粹是数据驱动的,如果研究从不同的数据集开始,模型可能会不同。
此外,虽然作者已经掌握了80多个临床测量结果,但为了避免过度拟合,团队采用的建模原则是平衡最小数量的临床测量结果和良好的预测能力,因此可能存在临床测量结果不够丰富的问题。
最后,本研究以更高的准确性平衡了模型的可解释性虽然临床环境倾向于使用可解释的模型,但是如果使用黑盒模型,精确度可能更高,但是同时决策风险更高。
从技术角度来看,作者认为这项工作有助于使用机器学习方法预测和诊断世界上大规模爆发的COVID 19病例。