专栏名称: 中国生物产业信息平台
在中国生物工程学会的支持下,由中国科学院微生物研究所信息中心和中国生物工程学会信息中心组织,为我国生物产业提供高效的科技信息服务。
目录
相关文章推荐
安徽商务  ·  新春看大戏 市集也精彩 ·  4 天前  
湘微教育  ·  “妈!我到底属啥?” ·  5 天前  
湘微教育  ·  “妈!我到底属啥?” ·  5 天前  
51好读  ›  专栏  ›  中国生物产业信息平台

精准医学大数据平台建设的现实与畅想

中国生物产业信息平台  · 公众号  ·  · 2017-06-05 17:17

正文

精准医学理念正在全球蔓延,中国也不例外。健康界了解到,我国精准医学重大专项已于2016年立项,并通过两次评审落实到60余个项目。



精准医学大数据管理和共享技术平台应运而生


尽管各方都在追逐精准医疗,但就目前来看,精准医疗依然存在落地之难。


原因何在?业内的共同认识是,精准医疗的发展离不开大数据,医疗组学大数据和医学的结合才是精准医疗的核心。而做到这一点,显然并不容易。


医学渐至,剩下的就是精准医疗大数据了。


一个不争的事实是,精准医疗大数据应用是个复杂工程,通过平台建设的方式来促进其应用不失为眼前的策略。因此,2016年立项的国家精准医学重大专项中,能发现一个名为“精准医学大数据管理和共享技术平台”的项目。


军事医学科学院放射与辐射医学研究所研究员伯晓晨称,该平台是国家精准医学研究重点研发专项的平台,主要用于精准医疗数据的管理和共享等应用,目前搭建了两个数据库:一是疾病数据库群,一是基础组学数据库群。


平台怎么建?


健康界了解到,精准医学大数据管理和共享技术平台主要分成5大块,分别是基础平台、疾病数据库群、基础组学数据库群、支撑数据库群、医学整合注释平台。


基础平台为最基础的要件,国内生物医学界几乎所有知名的组织都参与到该平台的建设中,主要提供安全可靠高效的PB级大数据存储计算。


疾病数据库群是对接整个医学专项,提供6个以上的疾病数据库汇交管理系统,主要涉及到数据整合、关联、查询、数据库建设方面。难点是如何统一模型,划分疾病数据库群,并制定相应的规范。


基础支撑数据库群为在建的国家生物大数据中心,即专门抽出中国人群相关的参考数据,形成相当规模的中国人组学数据。难点就是如何把90个病种提交数据,通过其他的基因组的形式注释出来。“提交上来的是直接测完的结果,并没有标注基因的异常,需要靠注释平台进行注释。”伯晓晨解释:“说白了,就是要做大规模的运算。”


医学整合注释平台则是用于提高医学的黏度。为什么要提供注释?伯晓晨解释,临床整合数据是没有参考的,需要通过注释的方式提供参比的数据。比如,一个突变是稀有的,还是普通的;是针对最早的5个基因组来说的,还是针对千人基因组、万人基因组来说的,“在5个基因组中属于稀有的,放到千人基因组中可能就不是了,所以这里面一定要有参比的数据,你用什么数据就决定了整合和注释这方面的工作量多大。”


难题待解


搭建起平台,并不意味着万事大吉。


来自中国科学院院士陈润生的认识是,要实现精准医学,必须具备两个条件,一是获得组学数据,进行组装、挖掘,组学测量与大数据分析有机融合才能构建组学大数据的基础;二是搭建以分子水平信息为代表的基因型数据和以疾病为代表的表观数据之间的桥梁。他强调,这两点一定要跟当前的临床紧密结合。


面对精准医疗所要处理的海量数据,伯晓晨坦言,目前需要解决的重大问题是超大数据处理和服务能力的基础平台架构与技术,此外,如何划分疾病数据库群,制定相应的规范需要探索。


这与陈润生的看法不谋而合,在他看来,精准医疗的发展离不开以下几个基础:


首先,要奠定组学大数据的基础。陈润生曾表示,精准医疗建设首先要获取海量人群的组学数据,而且所有组学数据必须是大数据,否则将没有效果。此外,还必须用大数据分析的手段挖掘组学数据中蕴含的跟疾病有关的信息。因此,第一个基础就是获取组学数据,并进行大数据处理获得分子水平和疾病相关的知识。


其次,建立分子水平上获取的知识和宏观临床疾病之间的桥梁,“也就是建立基因型与表型之间的关联,这需要发展一系列的医学信息解读和生物学信息解读等方法。”


“有了这些基础,才能够使组学数据能够应用到诊断的治疗当中来,并与影像学、检验以及医生的临床诊断结合起来。”陈润生总结。


负重前行


低头迈步的同时,还需要抬头看目标。


据了解,精准医学大数据管理和共享技术平台设计的技术指标在2020年最终要达到的水平,从基础平台存储来说,需要达到PB级的分布式存储,一次查询时间要小于0.5秒,满足1万人次以上的并发检索;在疾病数据库群方面要建汇交系统、管理平台、协作平台,将精准医学支持的将近90多个群打包成6个以上的群;在基础组学数据库、支撑数据库方面要,则要建立20个以上的跟医学研究相关的标准组学数据库的镜像,总量要达到PB级。







请到「今天看啥」查看全文