本文盘点了国内8家提供“病历结构化”服务的人工智能公司,从图解自然语言处理技术实现流程入手,对“脏病历”处理的产品服务体系进行大类划分,总结结构化病历助力AI+辅助诊疗产品落地的“自给自足”模式。
文/尚鞅 亿欧智库分析师
7月3日,美国《福布斯》的一篇文章引发热议,其标题为《沃森是不是一个笑话?》 ("Is IBM Watson A 'Joke'?")。 曾经在全球掀起AI巨浪的IBM Watson项目,与国际顶尖的肿瘤治疗和研究机构——MD 安德森癌症中心合作四年,累计花费约6200万美金,最终因“成果甚微”而导致合作破裂。IBM Watson项目为何难以取得突破性进展?美国癌症研究所编辑(JNCI) Charlie Schmidt 这样写道:
“该系统在‘吸收’手写的病例报告、医生笔记或者其它涉及大量文字的医疗信息上存在诸多问题。”
换句话说,Watson和MD 安德森所面对的问题,就是非结构化病历带来的困扰。所谓非结构化病历,具体指由无结构的人类自然语言构成的、无法用于统计分析的病历,我们形象地称之为“脏病历”。目前,全球大量基于人工智能技术的辅助诊疗系统开发团队均不同程度地受到“脏病历”的掣肘,就我国病历可用性而言,现状尤其不乐观。
根据国家卫生计生委统计信息中心2016年6月底进行的全国医疗卫生机构统计数据显示,全国医疗卫生机构总数为98.9万个,其中基层医疗卫生机构92.7万个,约占总数的93.71%;而医院数量仅2.8万个,约占总数的2.86%;另有专业公共卫生机构3.1万个,其他机构0.3万个。
(点击图片可查看大图)
我国医疗行业长期发展过程中,各地方医院缺乏统一规范的临床结构化病历模型(即基于确定的结构和关系的数据表达模式和信息分类框架);基层医疗卫生机构病历写作尤其缺乏规范性,并且存在医生直接复制粘贴病历内容的现象,造成病历重复率较高,使用价值很小;此外,我国医疗机构在患者回访机制的建立方面还处于萌芽期,患者回访率极低,这也使得患者诊后延续性数据十分匮乏。我国自2002年便已出台《病历书写基本规范(试行)》,开始对病历书写提出规范化办法;2009年“新医改”政策出台后,更是将病历电子化、规范化列入国家卫生计生重点工作中,连续出台多部文件,推动电子病历规范化与医疗数据产业化进程。
(点击图片可查看大图)
然而,我国医疗机构庞大的体量,使病历规范化改革之路坎坷曲折,现有的病历根本无法满足人工智能机器学习所需的海量结构化病历数据。针对这一难题,近年来国内一些科技类公司开始将人工智能技术运用于“病历结构化”之上,并形成专门的服务产品。
一、病历结构化的技术手段:自然语言处理
病历结构化,就是将无结构的人类自然语言,通过词法分析、句法分析以及语义技术,转化为可用于查询、统计、分析的结构化病历数据。病历结构化过程,在计算机中是通过自然语言处理(Natural Language Processing,简写为“NLP”)完成的。自然语言处理,是人工智能通用算法应用的重要组成部分(人工智能通用算法应用包含计算机视觉与图像、自然语言处理两部分)。自然语言处理的算法很多,基本逻辑如下图所示:
(点击图片可查看大图)
二、两类产品服务体系 满足B端多样化需求
根据亿欧智库在“AI+医疗”领域的研究,病历结构化是AI赋能医疗行业的八大应用场景之一——“医院管理”的子场景,此外“医院管理”场景还包括基于遗传算法的医院工程建设设计、医院决策制定系统。目前国内人工智能科技类公司之中,有8家公司正在提供病历结构化服务,其产品和服务均指向B端,包括医院、药企、医疗研究机构、保险公司、IT企业等。纵观这8家公司的产品服务体系,大致可以分为两类:开放性平台服务和产品应用。
(点击图片可查看大图)
(点击图片可查看大图)
1、 开放性平台服务:开放性API+智能病历分析服务
开放性平台服务,主要包括两类,一是开放性的中文病历语义API,提供企业无缝对接的可插拔式模块;二是提供智能病历分析服务,服务类型和范围较广,如为保险公司做医疗风险评估、精准医学大数据中心的业务规划和组织架构设计、协助重大研究课题进行前期分析研究、开发医疗人才培养系统等等。此类公司包括森亿智能、零氪科技、依图科技、医众影像、大数医达、生命奇点。
2、产品应用:云医声+医语通
将病历结构化技术融入产品应用当中的公司主要有两家,科大讯飞和中科汇能。科大讯飞的产品为移动端APP“云医声”,该产品以语音识别为基础,能将医生说出来的医嘱直接记录整理成电子病历,大大减轻了医生的工作量;其智能语音转录系统的准确率在97%,并且适用于医院所有科室。中科汇能则提供软硬件一体化服务,即“医语通”服务产品,包括自主知识产权的医疗语音识别引擎、语音录入客户端和医疗专用麦克风。“医语通”基于语音合成与识别、手写识别、图像识别、语义理解、声纹识别,将无结构化病历转化为结构化病历数据,识别准确率达95%以上。
三、自给自足:结构化病历助力AI+辅助诊疗产品落地
除上述8家专门提供病历结构化服务的公司以外,国内许多基于人工智能技术开发辅助诊疗产品的公司,主动与医疗机构展开合作,利用自然语言处理算法处理来自医疗机构过往沉积下来的“脏病历”,由此获得海量结构化病历,然后将其作为学习材料完成机器学习。这种“自给自足”的结构化病历,极大地缩短了AI+辅助诊疗产品的落地速度。例如深思考以NLP作为核心技术,将自主结构化后的海量病历数据,用于开发iDeepWise深度学习平台、人工智能大脑Web服务平台以及虚拟机器人等辅助诊疗产品。此类公司还有很多,如连心医疗的肿瘤临床数据中心(CDR)、康夫子的智能辅助问诊机器人开发平台等等。
另外,在此不得不提一下我们熟悉的“AI老大哥”,IBM Watson。不久前,IBM授权认知关怀作为IBM Watson for Oncology(针对肿瘤的辅助诊疗系统,我们习惯将其称之为“沃森肿瘤专家”)中国指定运营商,这也标志着IBM的人工智能产品将积极探索中国市场。IBM Watson所采用的“认知计算”技术,虽仍以自然语言处理为基础,但拥有更强大的非结构数据读解分析能力,并能够根据医生输入的病人指标信息,提出优选的个性化治疗方案。该技术的出现,有望根本上解决中国“脏病历”泛滥的现状。
随着“AI+辅助诊疗”的进一步发展,病历结构化的重要性将日益凸显。而基于我国医疗卫生机构庞大的体量,多数病历“太脏”的现实状况,我们有理由相信,在病历结构化的刚性需求与广阔市场空间的共同催生下,未来将有更多致力于提供病历结构化服务与产品的公司涌现,以医疗算法平台为业务方向之一的企业也将有可能在此领域发力。
本文是对亿欧智库《2017人工智能赋能医疗行业研究报告》的部分章节解读,该报告将于2017年8月25日举办的“破壁·融合 亿欧2017中国大健康产业升级峰会”上正式发布。
文章内容系作者个人观点,不代表亿欧对观点赞同或支持;转载请注明作者姓名和来源。