基因测序技术已经发展四十年,目前测序成本已大幅降低,让大规模商业化成为可能。但数据多不代表应用就更强,如何对海量数据进行深入分析并输出有用成果,一直是行业难点:
第一是基因数据量庞大。一个人的基因测序原始数据高达约200G,一套IlluminaX10测序仪每年可产生1.8万个基因组测序数据。如此庞大数据量,对数据存储和处理提出很高要求,一般企业难以解决。
第二是多样本关联分析较弱。到目前为止,还有70%位点突变意义并未明确,而多样本分析对数据处理要求更高,行业急需机器学习、人工智能等技术应用到基因数据处理分析。
以往企业往往利用自建数据中心、租用高性能计算等方式解决,但成本高昂、维护困难、数据共享交换困难、缺乏标准数据库支持等现实问题依然突出。百度云对相关产业的现实应用是:测序中心、科研与临床用户以及SaaS服务提供商共同搭建数据分析流程,平台数据有统一输入输出接口,数据从零散化发展到标准化,极大地降低数据整理和输出的难度,也让大规模分布式协作成为可能。
以百度云为华大基因部署的BGI BRCA Online平台为例,通过自身海量计算能力为乳腺癌、卵巢癌的科研应用提供基因测序数据分析服务,提升数据整理分析效率,对病情诊断和疾病发现有显著作用。
国内多家基因测序和精准医疗企业已经和百度展开合作,比如某医药企业在百度云上部署NextCode系统,为中国科学家研究、临床诊断罕见病及常见病提供精准的基因测序及数据分析服务。某生物技术企业利用百度的技术优势,研发部署在百度云上的“晶典云”,大幅降低成本并提高组学数据分析速度,以此建立适用于相关用户的精准医疗大数据云平台,挖掘和管理健康、疾病数据。
当前人工智能和云计算是各方争抢的焦点,国外有亚马逊、微软、谷歌等公司入局,中国有阿里巴巴、腾讯、百度等入局。人工智能、云计算应用到医疗领域都是新兴科技,国内外公司可以说站在同一起跑线。以往都是中国公司Copy美国模式,但这次百度云作为百度人工智能的输出平台,正在帮助医疗机构和企业进人工智能时代,并可能在此领域实现对欧美国家的历史性超越。