如今,随着生命科学领域研究的增多,产生的数据已呈现爆炸式增长。毋庸置疑,生命科学领域正处于一场数字化军事竞赛中,生命科学领域对数据存储等需求也将愈发强烈。毫无疑问,这些科学成果可以为科学界带来更多的思路并引领产业的发展,但是现今数据产生的速度却远远超过了数据的存储和分析能力。美国高德纳咨询公司表示,我们现在仅仅分析了5%的数据。这样的情况已经延缓了重要成果的研究步伐,关于数据共享、数据分析及数据解读,我们仍有很长的路要走。
而下一代测序(NGS)正是引起这一现象的关键因素。一个人的全基因组数据通常有上百Gb,再加上世界庞大的人口基数,这着实不是一个小数字。现有数据表明,测序数据每7~9个月就会翻一倍,但实际上,测序仍处于起步阶段。随着技术及产业的发展,未来在数据存储等方面的挑战可想而知。据估计,2014年,已测序基因组达到22.8万个;而到了2017年底,这一数字预计将跃至160万。
我们还可以想象一下,如果在消费者的医疗保健或临床设备中广泛采用基因组测序技术,会出现什么样的状况呢?或者当病人的纵向研究成为常规手段时,或在我们的电子病历中添加了病理及影像学数据时,又会出现什么呢?
其实,基因组学只是这些问题的一部分。对于神经科学的最前沿——神经连接组学领域,可以映射大脑的神经连接和通路,并依赖于纳米级分辨率的电子显微镜观察这些连接,产生的最大数据集已经达到100Tb。依赖于快速、高分辨率的大型电子显微镜,研究人员预计这一领域的数据集很快将达到Pb级别。在接下来三到五年内,市场上的检测仪器和成像设备将每秒产生超过1Tb的数据。美国桑福德-伯纳姆医学研究所的研究员Dorit Hainen表示,她现有的Titan透射电子显微镜能够以每秒40帧的速度生成高分辨率的图像,而她最新的显微镜将把这个数字提升到每秒400帧。
大规模科研项目将产生更多数据
目前,一些最新的大型科学项目,例如蓝脑计划,人类连接组计划,100K病原体基因组计划,华大基因的百万人基因组计划、百万动植物基因组计划、百万微生态系统基因组计划,以及癌症登月计划,都是数据增长的主要驱动因素。
这些项目将总计产生数百PG的数据,更重要的是,下游的数据分析还将产生更多数据。生命科学探索的最大压力正逐渐从科学方法转移到分析架构和生物信息学的肩上。
如图1所示,测序成本一直呈持续下降趋势;然而计算成本却很难降低。基因组测序成本曾经是最重要的成本因素,然后随着NGS技术的发展,测序成本每年也在不断降低;相比之下,分析的费用则降低很少,进而成为了最大的成本因素和限制研究进展的最大瓶颈。同时如图2,这一步骤也非常耗费时间。
图1 基因组测序和基因组分析。 来源:ILAE Genetics Commission Blog
图2 分析和解读新一代测序数据的平均时间。来源:The Scientist: Next-Gen sequencing User Survey
科学探索的“敌人”
科学研究很大程度上依赖于计算和存储的基础设施。 大多数机构都使用高性能计算(HPC)平台来提高效率,减少工作时间。但是分析流程和工具的差异很大,这很大程度上依赖于所执行的分析内容。这给计算资源和相应的存储系统带来了沉重的负担,因为这些存储系统通常是为一般用途而设计的,而不是专门用于基因组分析。
值得注意的是,在过去60年内,我们的计算性能已经增长了一万亿倍,而存储性能却只有小幅度提升。这种计算和存储性能间偏差对数据分析造成了一系列影响,尤其是在如今数据集规模继续增长的情况下。
当我们必须从存储系统中获取数据时,科学研究的进程就难免向后推迟。要知道,存储系统的速度要比固态内存慢得多。
表1展示了各类存储的响应时间。避免I/O延迟的常见方法是在计算节点中增加足量的内存,以便所有必须的应用数据都包含在缓存层。但遗憾的是,这个方法并不是在所有情况下都起作用。
正确看待存储I/O?
当任何应用程序需要缓存或获取内存中不可用的数据时,必须对存储阵列发出输入/输出(I/O)的请求。根据所请求数据的位置,这可能是个非常缓慢的过程。
表1展示了从各种存储形式中获取数据的等效距离和时间。通过这个表格,我们应该好好思考一下这对不同地域间研究者合作的影响!
表1 来源:CODING HORROR programming and human factors
我们可以总结一下,有三个重要因素对生命科学研究的进程造成了主要影响:(1)数据的可访问性;(2)系统的扩展性;(3)I/O延迟。
数据的可访问性:可访问性表示你的数据是否能够随时随地被访问。现代数据中心通常具有多个存储系统,每个存储系统针对特定使用情况或工作负荷进行设计。这将导致存储孤岛,使数据难以从不同的系统种进行访问,从而影响协作。
系统的扩展性:存储系统通常与某个特定的供应商或硬件设备相关,在这些情况下,存储系统只能扩展到一定容量或性能级别。存储系统通常以容量或性能来衡量,而最通用的系统可以同时独立地在两个平面上扩展。
延迟:延迟表示应用程序收到系统响应的时间。延迟有很多种形式,最常见的是与存储I/O、网络和软件堆栈相关。现代计算机和存储系统都使用固态闪存来减少I/O延迟。
图3展示了非易失性存储器的进步是如何逐渐降低这些硬件的延迟。需要注意的是,这相当于直接连接SSD,因此不会出现网络延迟。
图3 来源:SNIA-Anatomy of Data Access
然而,软件延迟仍然保持不变,每次连续的硬件生成都会使软件延迟呈比例地增大。结果就是,应用程序尚未被优化以利用现代的SSD存储,软件堆栈便已成为了存储性能的新瓶颈。
而当存储从计算集群中分离时,就会出现网络延迟。
图4 应用程序到SSD的读取延迟(QD=1,4KB)。来源:Forbes
缓解瓶颈
我们不禁思考,该如何缓解这种延迟的形式?
通过将数据移到基于闪存类型的存储,我们可以减少存储延迟。使用一种特殊的网络延迟InfiniBand(IB)网络来连接存储,或者使用服务器直接连接存储(DAS),可以使网络延迟最小化。但IB网络增加了不必要的成本和复杂性,DAS则会导致数据孤岛。
而将计算资源转到数据中会很有趣,但利用传统的存储架构则无法实现这个过程。由此引出了融合基础设施(CI)这个概念,这是一个包含存储、网络和计算资源的单一设备,这些资源被虚拟化,进而更具延展性。
融合系统克服了传统存储系统的许多局限性,因为该系统设计的数据存储的核心功能就是对容量和性能方面进行扩展。
这对生命科学意味着什么?
曾有学者计算过,到2017年年底,使用下一代测序技术对患者基因组进行测序所产生的数据量,将相当于约30英里高堆起来的蓝光影碟的数据。
或许,为了发挥这些最新研究成果的最大潜力,生命科学组织应该认真考虑下降低这一瓶颈的策略。融合式的基础架构和存储技术最大限度地提高了数据的可访问性,并能够扩展到数十亿个文件和数百个Pb级,而最小化延迟或许是未来成功的关键。
参考资料:
The Next Digital Arms Race In Life Sciences
· END ·