专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
目录
相关文章推荐
新浪科技  ·  作为全球科技行业的盛会,CES ... ·  4 天前  
新浪科技  ·  【#12306致歉#:票务系统发生繁忙预警, ... ·  5 天前  
51好读  ›  专栏  ›  DeepTech深科技

“生物遗传”数据存储技术实现巨大飞跃,指尖大小芯片拷贝440亿份《魔戒》三部曲或将成为现实

DeepTech深科技  · 公众号  · 科技媒体  · 2017-03-04 22:27

正文



相比于DNA存储,闪存、硬盘、软盘、光驱、录影带这些存储工具简直弱爆了。


 

当计算机工程师宣称自己取得了惊人突破,可以将所占空间巨大的音乐库和电影库存储在手掌大小的设备中时,生物遗传学家马上泼来一盆冷水:跟自然界的能力比起来,这实在是太小儿科了。


没错,论存储密度,没有什么设备能跟DNA相提并论——整个有机体的遗传信息全部存储在肉眼都看不见的细胞之内。于是,计算机科学家们开始研究分子生物学,试图借鉴DNA的“魔力”开创新一代的数字存储技术。



信息大爆炸的今天,新的APP、自拍照、博文、小视频等更新频繁的数字信息让脆弱的存储设备不堪重负。但好消息是, DNA的存储密度理论上可以达到每克455EB(1EB=1024PB=1048576TB)也就是说,指尖大小的芯片可以拷贝440亿份加长版《魔戒》三部曲(需要1.64亿年才能把所有这些电影看完)。


2012年,哈佛大学和麻省理工学院的著名遗传学家George Church首次用DNA来存储数字信息,并将研究成果发表在了《Science》上。Church将自己的一本书的电子数据编辑成DNA形式(650KB),他在《科尔伯特报告》(The Colbert Report)上向人们展示了一张薄纸,仅仅上面的一个斑点就存储了数百万个该书籍的备份。

 

George Church


当时,George Church 和同事就已经试图证明,数字信息可以被编辑成DNA形式。随后,为了验证 George Church 的理论,很多工程师和生物学家团队对该理念进行扩展,将更多数据编辑成DNA。


2013 年,欧洲生物信息研究所(European Bioinformatics Institute,EBI)的团队称,他们将739KB的数据文件编辑成了 DNA 链,这一大小超过了 George Church 的电子书。


2016 年 7 月,微软与华盛顿大学的研究团队刷新了记录——将200MB数据编辑成 DNA 链。



如今,DNA数据存储技术又更进一步。据不久前一篇《Science》论文表示,纽约基因组中心(New York Genome Center)和哥伦比亚大学的研究人员实现了每克DNA数据链存储214PB的数据密度。


George Church没有参与这项最新研究,但他之前通过计算证明了达到这一密度是可行的。“这是一次巨大的飞跃”,George Church激动地说,“他们将理论转化成了现实。”

 

从DVDs 到DNA的巨大跨越


该项新研究的第一作者Yaniv Erlich表示,0 和 1 是最基本的数据表达形式,无论计算机程序还是视频电影,它们都是由 0 和 1 组成的字符串。


Yaniv Erlich


同样,DNA由A(Adenine,腺嘌呤),C(Cytosine,胞嘧啶),G(Guanine,鸟嘌呤),T(Thymine,胸腺嘧啶)四个基本单元组成。


为了将数据转换成DNA,Erlich团队的工作就是将 0 和 1 映射成A、C、G、T。然后,在将相应的DNA序列发送给Twist Bioscience之类的DNA合成公司合成DNA数据链,并将其放入盛有液体且只有手指一半大小的玻璃瓶中。值得注意的是,里面是可是真正DNA链。


在进行数据访问时,需要重新把DNA转换为二进制,即最基本的0和1的形式。



利用这种方法,研究人员将以下测试数据编辑成DNA形式后又将其复原:


  • 计算机操作系统

  • 1895年的法国电影《火车到站》

  • 一张50美元的亚马逊礼品卡

  • 一个计算机病毒

  • 先驱者号探测器上的镀金铝板

  • 信息论创始人克劳德·香农(Claude Shannon)在1948年的一份研究报告


为了测试数据,Erlich还用编码的操作系统玩了把游戏。值得注意的是,存储数据的DNA材料并不是从动物或植物中提取的。“DNA数据链在此是一种硬件,”Erlich在一份邮件中写道。“它并非源于生物体,其合成、复制、和测序完全是化学过程。


信息的索引


听起来,DNA存储就是把 0 和 1 的数据串编码成A,C,T,G序列,貌似很简单,但实际过程要复杂得多。首先,并不是所有的DNA序列都有很强的存储能力。由相同核苷酸组成的序列,比如AAAAAAAAAAAA——它不但结构不稳定,而且很难准确地读取数据。


另外,在排序与检索过程中,有些DNA分子会失去活性,这就有丢失重要数据的风险。



为了解决这些问题,Erlich应用了计算机领域常用的喷泉码来索引代码,而不是直接使用代码本身,这就使得DNA数据丢失的风险大幅降低。而 DNA 喷泉码算法的索引能力更强,也就意味着即便有少部分 DNA 数据链丢失,最终还是可以解码数据。


喷泉码是将一些数据,例如文件,转化为一个有效的任意数量的编码包的方法,这样只要你接收到稍大于信源数据包数量的编码包的子集,就可以恢复信源数据。换句话说,你创建了一个编码数据的“喷泉”,只要接收端接收到足够的“水滴”,就可以恢复文件,而不管它们接到哪一个遗漏了哪一个。


研究人员正在将一小部电影存入DNA


此外,为了保证数据还原的可靠性,Erlich想进一步验证,DNA数据链能否准确无误地复制。


DNA测序过程中需要将部分分子从样本中剔除。为了保留这部分数据,科学家必须对其进行备份。比如,Erlich保留了25个初始备份,然后又对副本备份,对副本的副本进行备份,如此一共进行了9重备份。值得注意的是,即便是第9重备份,“我们也能完美地检索信息,数据结构很稳定。”


DNA计算机到来?

 

尽管DNA存储取得了很大进展,但把DNA作为手机和电脑的存储设备还为时尚早。“DNA存储还处于发展初期,仍属于基础科学,”Erlich说。“我们不指望人们很快就能买到DNA硬盘。”


对此,George Church表示,它更直接是用途是作为存档工具,比如,可以把视频监控等不经常访问的数据用这种方法来存档。



相比于传统硬盘,DNA不但存储密度大,而且无需散热而且,DNA的数据存储时间要比其他存储工具长得多。既然古人类学家能对尼安德特人等古人类进行基因测序,Erlich也丝毫不用担心DNA的数据存储寿命。


微软的研究员们则认为,DNA存储有更广泛的应用前景。微软的Karin Strauss和华盛顿大学的Luis Ceze在邮件中表示:“对于需要长期存储海量数据公司或个人,DNA存储都是不错选择”。


比如,医院需要长期存储病人的临床信息,研究机构的研究项目也有大量数据要保存,而新兴的虚拟现实行业也要存储内存很大的视频文件。另外,随着便携摄像机的普及,越来越多的人会选择把个人视频上传云端,这也将仰仗DNA存储。


但在目前,DNA的存储成本极其所耗费的时间却让人望而却步。Erlich团队合成DNA数据花费了7000美元,读取数据又花了2000美元合成数据需要两周时间,读取数据也需要一天时间。


但这并不意味着,DNA存储不会应用到人们的日常生活中。George Church的团队就在与Technicolor公司合作,利用该技术保存了很多公司的老电影。


Technicolor公司的DNA存储


在2016年的一次媒体参观活动上,Technicolor研发与创新副总裁Jean Bolot向人们展示了一小瓶数据DNA,里面有100万个1902年的法国无声电影《月球旅行记》(A Trip to the Moon)的备份。

 

编辑:孙小彪





《麻省理工科技评论》中美合作“城郭会员计划”正式发布,让您始终处于新兴技术商业趋势的最前沿。详情请点击下方图片查看↓↓↓





招聘

编辑、视觉设计、视频策划及后期

地点:北京

联系:[email protected]



MIT Technology Review 中国唯一版权合作方,任何机构及个人未经许可,不得擅自转载及翻译。

分享至朋友圈才是义举