7月15日,由北京协和医院肝外科联合测序中国主办的2017年第三届精准医疗与基因测序座谈会上,中日医院运动障碍与神经遗传病研究中心负责人、CHPO(中文人类表型标准用语联盟)总协调人顾卫红教授出席会议,分享交流了CHPO的成立背景与用途,贝壳社作为支持媒体采访了顾教授。
随着基因测序技术发展,人们开始频繁探寻疾病的深层的分子基础,并将基因型和疾病表型数据联合分析,作为认识和诊治疾病的重要手段。然而基因数据的科学解读,仍是当前面临的巨大挑战。最主要的原因之一,就是缺乏基因数据、临床表型和疾病三者间的沟通桥梁。大量断层和不完整的数据,让信息之间无法“平等对话”,也让海量的基因数据的价值大打折扣。
为此,2008年国际生物医药组织OBO联盟成员——德国柏林夏洛特(Charité)医学院联合Monarch Initiative启动HPO项目。其中Monarch Initiative提供一个在线数据库,可便捷浏览、查询生物医疗领域的专业术语,聚集疾病、表型、模型生物、基因等大量结构化的语义数据。
HPO(Human Phenotype Ontology)译为人类表型术语集。其中Phenotype指表型,是生物体外在表现出来的形态与功能特征,是基因和环境共同作用的结果,而Ontology是描述专业领域的标准化词汇表及词汇间的语义关系。
所以HPO就是描述人类疾病表型特征的标准词汇表,每个术语描述了一种异常表型。HPO利用从医学文献,Orphanet,DECIPHER,和OMIM数据库获得的信息进行开发,目前包含约11,000多项名词(仍在扩充)和115,000余项关于遗传性疾病的注释。HPO数据库还提供了一套针对4000多种疾病的注释(annotations)。HPO开发组还在持续地进行词条的维护和完善工作。
迄今为止,HPO已被国际20余家顶级科研机构广泛应用于人类遗传学的临床诊断,人类表型异常与细胞和生物化学网络之间关系的生物信息学研究,人类和模型生物体表型之间的映射,以及为临床数据库提供标准化的词汇表。HPO项目鼓励医学和遗传学界投入对“本体”本身和临床注释的开发和研究。
官网显示,HPO常用临床术语主要是描述表型异常(Phenotypic abnormality),包含结缔组织异常、声音异常、神经系统异常等23大类。HPO上线至今,已历经多次更新迭代,最新版是2017年6月30日推出。
反观国内,大部分医疗、科研工作者所使用的表型描述词语并没有统一标准,医院信息系统中记录的临床表型数据大多是非结构化的自然语句,这对人类疾病,尤其是遗传性疾病的临床研究和交流带来极大不便,对后期数据的分析和挖掘也造成很大困扰,所以中国也亟需建立一套标准的临床表型用语体系。庆幸地是,在近百名中外专家的辛勤努力下,HPO已成功引进中国并生根发芽。
2015年底,由国内临床、遗传咨询、分子生物学领域知名人士自愿组织、共同发起成立中文人类表型标准用语联盟(CHPO,The Chinese Human Phenotype Ontology Consortium),对国外已有的HPO词条进行翻译优化。
组成联盟的成员都是业内赫赫有名的权威专家,比如,华大基因团队、美国医学遗传学学院会员张巍教授和南加州大学生物信息学专家王凯(现任职于哥伦比亚大学)教授分别翻译部分HPO词条,王凯教授搭建了CHPO wiki技术网站,中日医院顾卫红教授负责相关方协调沟通与组织,北京协和医学院黄尚志教授也给予大力支持。最终,在华大基因杨焕明院士与HPO创始人Peter Robinson教授的推动下,万众所归的CHPO终于正式成立了。
CHPO成立宗旨是在中国建立一个开放平台,联合相关领域专业人士,逐步建立中文临床表型术语标准,并让其指导、服务于中文使用者的临床和科研工作。目前已实现的两个目标是,提供人类表型的中文标准术语;提供一个高效的中文人类表型搜索引擎。
CHPO wiki
CHPO 搜索引擎
这是中国第一个,也是迄今为止唯一一个医学术语搜索引擎,目前已与OMIM遗传病知识库建立连接。
其实成立CHPO不仅满足医疗当下所需,还缘起于一段真实历史。顾卫红介绍,2015年发生一件轰动医疗圈的林林案例事件。患儿林林不幸得了疑难罕见症,林林的家长是清华校友,于是请求清华生命科学与医学校友会援助,蓝灿辉先生为此发表一篇《孩子罕见病,五年未确诊,清华校友求病因线索》的文章,一时引发社会各界广泛关注。后来知名学者、研究机构和社会企业自发组织林林病例的研讨会,会上业内人士普遍认为临床表型数据缺乏统一标准,限制了基因数据的分析效率,提议启动临床术语标准化工作,于是有专家建议引入HPO,由此诞生了CHPO联盟。
“HPO是一种连接方式,也是一种共同语言,能将临床、遗传、生物信息、医学数据等进行专业有效的匹配。在这个过程中,医生借助HPO转化采集到的患者表型信息,是后续的深入分析的基础。”
顾卫红还解释了HPO术语集与其他医学标准术语的区别,第一是来源于已有的医学文献和数据库,涵盖常见、常用的词条,源自对疾病的表型描述;第二是相对简化便于推广应用,已被众多基因数据库及分析工具所采用;第三是专注遗传病与罕见病。
耗费一年半,CHPO志愿者成员牺牲业余时间完成翻译编辑优化。资料显示,2016年10月,CHPO对HPO词条进行了翻译编辑,共计11896个词条;今年1月,入中科晶云公司捐赠的5600种OMIM中文名录与检索方式;今年6月刚刚结束各分类词汇定义的最终编辑。除了CHPO核心成员,在整个项目引进过程中,先后有近百位国内外专家参与编辑与审核工作。
近期,CHPO也取得不少进展,已经能提供词库免费下载,迄今有80余个机构/项目申请下载,包括基因检测机构、医疗机构、研究所、大学、数据分析机构、科研项目组等,而且与国家罕见病注册登记系统建立了密切合作,共同推动中国临床术语标准化进程。
虽然基因测序技术的飞速发展,让疾病的基因层面诊断变为可能,然而作为临床医生,顾卫红感触最大的是,新兴的技术一经推出,来不及消化与优化,就直接面向临床进行推广。基因检测公司的各类基因检测技术和项目,目前缺乏统一标准,难以做到全流程质控。
为此,她建议疑难病诊断除了临床表型数据会诊,还应建立基因表型数据会诊,通过搭建基因表型共享数据平台,实现临床表型信息和基因数据在一个平台上完成会诊。“不仅有临床会诊,未来还需要基因会诊,这样才能建立基因检测行业真正意义上的的质控体系,突破制约行业发展的瓶颈。”
她分享了一个想法,也是目前正在实践的工作,即让医生端和基因检测机构互通连接,让局部的连接逐渐拓展、完善并且模式复制,最终形成以患者数据为中心的网络平台。
实际上,仅有临床数据、基因数据、表型性状还不完整,患者的健康状态数据也必不可少,数据全面、信息完整才能让医生对患者未来生活方式进行科学干预。她表示,目前健康状态数据和临床数据一样,稀缺且薄弱,庞大的基因数据无法匹配碎片化的临床表型和健康性状数据。因此,弥补临床表型数据,建立标准化方式,构建健康状态数据也是业界共同努力的方向。
展望未来在AI领域的应用,顾卫红认为,汉化版HPO不仅能应用在连接临床、基因检测、遗传分析、科研等领域,也有助于机器学习,提高计算机辅助分析能力,推动AI技术与医疗的深入结合与落地应用。
附:CHPO组织和管理
主席:Peter Robinson教授和杨焕明教授是委员会联席主席,主要职责包括指导委员会的召集和主持决议程序。
欧洲和美国成员:(由Peter Robinson教授提名)
总协调人:顾卫红
中国成员:
l 黄尚志教授,国内知名遗传学家,曾任北京协和医学院遗传室主任,世界卫生组织遗传病社区控制合作中心主任,中国罕见病发展中心顾问
职责:向中国医学院校宣传推广CHPO
l 张巍教授,博士,美国医学遗传学院专家委员,贝勒医学院客座副教授,广州嘉检医学主任,经美国医学遗传学会(ABMG)认证的临床分子遗传学与临床生化遗传学专家
职责:负责招募与教育来自大学和医院的志愿者。
l 王凯教授,博士,美国哥伦比亚大学基因组医学所临床信息学主任、生物医学信息学系副教授,生物信息学专家 ,北京希望组首席科学家
职责:开发CHPO编辑平台
l 顾卫红教授,博士,中日医院神经内科运动障碍与遗传病研究中心研究员,临床遗传专家,中国罕见病发展中心顾问
职责:在临床医疗系统宣传推广CHPO
l 彭智宇博士,生物信息学专家,华大基因临床研究和产品开发总负责人
职责:将CHPO作为临床报告标准应用于遗传实验室
l 李宁博士,国际罕见病研究联盟指导委员会委员,GenomeDenmark指导委员会委员
职责:在中国法律框架内优化伦理和监管流程,保护CHPO版权和品牌免于非授权的商业化,和负责CHPO指导委员会公共关系管理
职责:维护、改进wiki网站和搜索引擎;定期更新、整理CHPO词库;连接相关知识库;与国家罕见病注册体系连接
成员:顾卫红、王凯、朱赢、弓孟春、秦建虎、黄辉、张林、张巍、魏晓明、郭一然、刘爽、冯时、孔梓任、孙广武、闵浩巍、毛小伟、赵铁强、常凤香、赵松彬
职责:与HPO进行定期交流互动,必要时召开电话会议;将交流进展分享在委员会微信群,CHPO国际事务的决策需要经过讨论达成共识
成员:李宁、王凯、顾卫红、李勇平、弓孟春、郭一然