目前公司大数据产品线包括两个解决方案:基因数据的传输压缩,高性能计算解读。
传输压缩解决方案GTZ
GTZ是人和未来与湖南省工程研究中心合作开发的数据传输压缩解决方案。
GTZ是人和未来开发的数据传输压缩解决方案。通过将数据传输、压缩、分发集于一体,GTZ能实现将大规模基因组数据传输时间缩减90%,同时还能减少90%的磁盘存储空间。
与老牌传输工具Aspera相比,相同带宽下,传输能力提高10倍;与传统常用的压缩算法gzip相比压缩速度提高10倍,压缩率提高3倍 。为基因组大数据的传输和存储提供了高效率低成本的解决方案。
一个人的基因组数据的大小约为3GB,如果测序深度为30X,算上碱基质量等数据,最终全基因组数据的大小超过200GB。
将测序数据保存在云端(比如,亚马逊云S3对象存储服务),如果不压缩,需要400元/年,如果使用gzip压缩,需要140元/年,如果使用GTZ压缩可以将保存成本降至40元。
目前国内公司已经购买了大量的Illumina 生产的NovaSeq新型测序仪。单台NovaSeq测序仪可以在30小时内产出6TB 数据,一年满负荷运转可以产出超过1.5PB数据。如果采用GTZ压缩,可以为每台NovaSeq减少超过150万的存储成本。
另外,不同于传统的传输方案,GTZ采用边传输边压缩的专利技术,实现了满带宽稳定高效传输。
通过将数据传输、压缩、分发集于一体,GTZ能实现将大规模基因组数据传输时间缩减90%,传输能力是Aspera的10倍;同时还能减少90%的磁盘存储空间,与主流的gzip 的35%相比提升3倍。
高性能计算解决方案
1. GT-WGS
GT-WGS是基于亚马逊AWS的基因信息云计算平台。基于公有云的分布式计算,平台采用数百台高性能计算机协同运算,能够将30X的人类全基因组数据分析时间缩短到10分钟以内(缩短了23个小时)。
在快速分析的同时,GT-WGS仍兼具结果准确性,与标准的GATK流程对比,其分析结果一致性大于99%。
一般情况下,从基因数据产生需要经历样本提取、建库、质控、测序、分析、解读这6个环节。在普通方案,这个流程最快也要用时50h。
而GT-WGS方案则能将建库时间和分析时间分别缩短1h和23h,将个人基因组检测服务(从采样到结果报告)的时间缩短至一天。
GT-WGS的机时费用约为16美元,与单台标准服务器相比,数据分析速度提高了90倍,可节约75%的云计算机时费用。
2. GTX One
尽管云计算有着弹性灵活等诸多优势,鉴于国内仍有大量基因数据存储于线下,适合本地计算的硬件加速系统必然是未来基因数据分析的一个战略要地。
人和未来于去年推出了基于CPU+FPGA异构硬件加速的数据分析一体机GTX-One。PCI-E 3.0 FPGA,可以使一台普通PC机具有了百台服务器的基因数据分析能力。
通过为基因数据分析定制优化计算流水线,单台GTX One能够在15分钟内完成30X全基因组的比对和突变分析,刷新基因数据分析的最低能耗纪录。今年公司对GTX-One的接口进行升级。
简单来说,GTX One单台设备实现了150台标准服务器的分析能力,最大化地降低了计算集群的采购和运维的成本,并加快了基因组分析速度。
基于文本挖掘的数据解读方案
CNV是基于NCBI text mining的文本挖掘数据库,能够将人类性状与基因型相关的关联与挖掘。这类似于此前动脉网曾报道的DNA digest和Genomenon所提供的服务。
通常情况下,大约只有6.6%的文献会在标题和摘要上体现出疾病与基因突变的关联。也就是说,在没有工具的情况下,研究人员需要通读全文才能找到所需要的信息。这个过程占据了研究人员大量时间。
利用文本挖掘对文献相关知识进行提取和重构,CNV能够实现文献挖掘的自动化处理流程,将研究人员从枯燥而冗长的文献检索过程中解放出来。
目前,CNV覆盖了NCBI所有的文献摘要,并对这些文献进行每月更新。