资料来源:中国医疗保险
作者:梁家林价值医学专家委员会秘书长(中国)
健康大数据是医疗卫生行业和医疗保险行业行业治理的基础架构和有效工具。大量数据是从个人收集的,并通过信息技术系统流动。据估计,每个人一生将产生不少于605 TB(不包括任何可能和必要的数据交互),国家每年将产生超过1000 ZB的交互数据(不包括这些数据的二次使用和复制/导出等)。)。
什么是健康大数据?
世界卫生组织(世卫组织)早就指出,健康是一种完全身体、心理和社会适应的状态,而不仅仅是没有疾病或虚弱。2016年,中央政府召开的全国健康与健康会议指出,人民的健康应该在各个方向和各个周期得到保障。大数据是人们健康水平和国家健康战略的“晴雨表”和“指南针”。大数据可以提高卫生和医疗保险部门的决策准确性和精细化水平。例如,可以预测季节性疾病的时间点、时期和强度以及下一时期的流行高峰,提前调配医疗卫生资源,避免被动非典事件的再次发生。另一个例子是预测近期有组织网上欺诈的奇数、行业、结构和过程,可以针对“黑灰色产品”,将魔掌伸向医疗保险欺诈和保险欺诈领域,防止医疗保险基金成为“唐僧肉”。
从这一总体要求出发,广义健康大数据可以从两个维度来定义:首先,它涵盖了人类个体作为健康影响因素产生的所有数据,包括:生理大数据(包括基因和其他大数据组)、心理大数据、环境健康大数据、生活方式大数据等。二是国民健康服务和国民健康保险两大系统产生的数据,包括:医疗机构大数据、公共卫生大数据、健康管理大数据、医疗保险大数据、商业保险大数据等。
然而,我国健康大数据治理水平低,实际利用率低,难以形成健康绩效。一是多头监管:国家卫生部提出的“医疗大数据”(狭义的医疗大数据)没有也不能纳入国家卫生部提出的“医疗大数据”。很难形成涵盖整个生命周期和全方位需求的广义健康大数据,更难在医疗大数据、老年大数据、社会保障大数据、商业保险大数据和生物多群体数据之间传递。二是数据质量低:来自智能监控设备(如智能手镯、智能血压计、智能血糖仪)的海量健康数据在尺寸、准确性、实时性、稳定性等方面难以达到医疗应用。它们仅起预警作用,不能用于临床诊断和治疗。
基于此,在一些建立了开放数据共享平台的省市,健康大数据被纳入医疗机构大数据(甚至只是医院大数据)的范围。2018年,共有12,032家公立医院和20,977家私立医院。医院大数据相对定期收集,处理相对规范,应用相对成熟,是卫生部门、医疗保险部门和商业组织进行行业治理的首选。自2015年以来,国家卫生部围绕系统集成、业务协作、数据连接和智能医疗应用实施了一系列措施。这包括:电子病历系统应用水平分级评价、医院信息平台应用功能指南、医院信息互联标准化成熟度评价等。
谁来喂医学人工智能?
2017年,“人工智能”首次被写入国务院《政府工作报告》,并上升为国家战略。国务院发布了《新一代人工智能发展规划》,并设立了“智能医疗”专篇。提出:“探索智能医院建设,开发人机协同手术机器人和智能诊疗助手,开发灵活可穿戴、生物相容的生理监测系统,开发人机协同临床智能诊疗方案,实现智能图像识别、病理分型和智能多学科会诊。以人工智能为基础,开展大规模基因组识别、蛋白质组学、代谢组学等研究和新药研发,推进智能医疗监管。加强疫病智能监测和防控。”
特别是在深度学习辅助诊断和治疗辅助决策领域,新一代医学人工智能技术(如深度学习和神经网络等)。)有助于提高医疗卫生系统在三个方面的治理绩效:(1)缓解中国专业医务人员的短缺,减轻高饱和度工作(如影像医生和病理学家)的负担,(2)洞察医务人员肉眼无法发现的高维空图像,揭示疑难疾病后无法感受或表达的“黑暗知识”,提高治疗方案的诊断准确性和科学性。(3)将高等级医院和高资历医生的“人类智能”固化为算法模型,利用人工智能赋予基层医院和低资历医生权力。
随着新一代人工智能在医学领域的应用,对健康大数据(尤其是医院大数据)提出了更高的要求。
算法是人工智能产业的“皇冠”,但在临床应用中面临许多未知因素。自从达特茅斯会议标志着人工智能的诞生以来,人工智能的发展经历了“三落三升”。在最近一轮人工智能中,深度学习和神经网络算法是其核心驱动力。由于对人工智能脆弱性、不稳定性和“人类生活”医疗决策中的“算法黑箱”的容忍度较低,许多医疗机构基于自身的医疗安全、患者隐私、医生建议知识产权等因素,不愿意将医院大数据传递给其无法控制的算法模型。根据国家卫生和健康委员会统计信息中心2018年的调查数据,多达一半的三级医院尚未实施大数据和智能应用。根据国家心血管中心对95家医院进行的问卷调查,在过去3年中,超过30%的医院没有投资医疗人工智能,只有5.3%的医院投资了数千万元。
临床大数据是训练算法模型无法绕过的障碍。如果机器学习所需的“成分”甚至都没有被喂食,更不用说经过精细加工的“食物”,算法模型就不可能一天天地“聪明”。大数据和人工智能行业对数据共享的开放性表达了困惑。首先,数据共享水平有限,数据量、数据维数和数据精度有限,难以满足神经网络算法模型的训练需求。其次,大部分原始数据是非结构化数据,数据的集中化、标准化和智能化程度差,需要数据收集、清理、数据脱敏和数据标注等额外环节,导致算法模型训练耗时过长、成本过高。