1 研究背景
随着信息化的飞速发展,医学信息的组织方式与服务方式已得到较大改进,人们需要对医学信息资源进行系统化的组织与分析,以方便临床实践人员和医学领域人员合理高效地利用这些信息。美国NIH在2003年启动医疗路线图计划,计划建设医学计算服务的“医学信息高速公路”;欧盟IST计划支持欧盟国家大学、研究所以及医院开展项目INFORMED,旨在整个疾病相关的分子生物数据库及临床数据库,并开发相应的数据分析处理软件等。基于医学知识库的临床决策支持系统相关工作也有很多,被证明具有显著改善病人治愈率和安全性的潜力。当前医学知识库中,医学知识的表示形式大多数为叙述性文字,以文本信息的形式存在,针对文本信息主题,通过信息描述、标引和排序,利用主题分类方法完成对信息的抽取,实现信息的有序组织。在医学信息化蓬勃发展的环境下,这种医学知识的表达和组织方式无法满足对海量信息的有效利用,医学知识库中的知识无法及时更新。为此,本文设计了一种医学知识组织与表示方法,基于自然语言理解技术,通过研究面向海量医学文书的知识获取技术,提供多通道交互技术来提高知识获取的智能化。
2 多通道知识获取
在基于自然语言处理的知识获取过程中,需要经过以下五个步骤:一是知识采集,该阶段任务是以人机交互形式录入医学知识源;二是医学文本分词,该阶段任务是对医学文本进行分词处理以及词性标注,便于进行识别医学问题;三是医学问题的识别,即分析出该文本中所包含的疾病、症状等医学问题;四是医学知识的表示,即以计算机可识别的语言描述医学领域知识;五是知识库验证,由于医学领域知识库的构建主要依赖于众多专家经验,不同专家背景不同难免会存在差异等,需要对知识库进行全局一致性、完备性检查,即测试知识库中是否存在不一致性和不完备性等问题。由此可见,医学知识的正确录入和完整性检查涉及人机交互的可靠性与有效性。为此,我们给出两种自然的交互方式,分别是基于笔交互的输入方式以及基于语音的输入方式。
2.1 基于笔的多通道知识采集 基于笔交互的输入方式,主要通过利用人们已具有的书写能力使用纸笔进行医学文书的自然书写,笔迹理解与识别等技术实现书写内容的结构化与语义提取,能够解决电子病历所带来的合法性与安全性问题,同时实现医学文书的结构化和计算机的可读性,如图1所示。
图1 医生书写文书到结构化的过程
在诊断时应用笔输入系统来实现文书的生成,同时实现知识获取过程,能够在实现文档结构化的同时,保存纸质文档,保证文书的安全性。同时,笔式交互更符合医生的交互方式需求,符合大多数医生的习惯。使用数码笔作为交互设备,在纸质病历上进行书写。数码笔将笔迹传回系统后,利用笔迹识别算法进行文字识别,从而获取文本格式的电子文档进行自然语言处理。
2.2 基于语音的多通道知识采集 另一个更加自然的方式为语音输入,主诉是医生诊断的依据,医生一般会将病人主诉记录在相关医学文书里,利用语音输入技术,实现医护人员问询过程中的主诉获取,在不增加医生交互负担的前提下,帮助记录病人主诉。但当前尚未有较为成熟的语音识别软件,且在医患对话过程中,对话的主体千变万化,识别率难以达到很高水平。我们采用基于拼音匹配的方法来实现主诉的获取,如图2所示,针对在交互过程中捕获的语音,识别出其拼音,与所构建的医学字典拼音进行匹配,进而获得医学术语结果。采用语音识别模块所识别出的汉字并没有立刻被作为诊断依据直接采用,而是转化成拼音。在得到拼音后,将其与医学拼音字典里的拼音再次进行匹配,从而获得相似度最高或距离最小的术语作为诊断依据,这里我们采用基于编辑距离的算法来实现拼音距离的计算。
图2 基于拼音匹配的方法
3 基于规则体和规则架的医学知识表达
为满足临床医学知识库构建需求,要将获取到的知识以合适形式表示出来,以满足计算机理解运用的需要。针对医学疾病诊断规则特点,采用“规则架+规则体”形式来表示医学推理规则,将规则分为两个层次。规则架表示医学层次关系,例如可逆性脑卒中和不可逆性脑卒中疾病的推理规则处于不同的规则架内;规则体表示具体值的推导,每一条规则采用前提推导结论方式来表示。每一条规则的前提,定义包括因素名、属性、关系、取值四个组成,其形式化定义如下:规则体前提::=,例如:前提表示肝部肿块的大小在1-2cm范围内。规则架前提与规则架结论表示由规则构成的结点之间层次关系,定义如下:规则架前提::=;规则架结论::=。规则架层实现了推理网络的分层,使节点定值与推理网络分离,增强了计算能力。例如,“颈内动脉缺血”发作表现为肢体运动和感觉障碍、失语、单眼短暂失明,且根据专家经验,三者对于“颈内动脉缺血”的可信度分别是0.4、0.3、0.4,则该规则组可以如下表示。
从对于“颈内动脉缺血”的表示可以看出,基于规则体和规则架的知识表示方法直观易懂,且通过规则架的组织关系,有效实现了规则集的分类,加快了知识推理的速度,提升了效率。
4 总结与展望
本文分析了当前临床诊疗服务存在的问题,采用“规则架+规则体”的医学知识表示方法,实现了医学领域知识的层次化表示,并利用自然语言处理技术实现医学知识的获取,从医学文书中获取经验知识,使海量的医学文书得到有效利用。下一步工作中,将根据医学知识来源的多样性,考虑更复杂的医学知识获取。在诊疗服务框架方面,将放松对接口使用的限定和表示方式,完善面向诊疗全过程的医学诊断决策支持服务。
(摘自来源:《中国数字医学》杂志2017年第2期 作者:孙晓玮 彭坤 张瑶 冷金昌, 单位:解放军总医院第一附属医院信息科)
《中国数字医学》微店,点击以下阅读原文进入