专栏名称: 智药邦
人工智能在药物研发领域的进展、探索与实践。
目录
相关文章推荐
学习曾国藩  ·  一个人最掉价的8种行为,希望你一个都没有! ·  2 天前  
文商资讯  ·  清北状元学习方法(暑假)训练营8月3-7日 ·  2 天前  
文商资讯  ·  清北状元学习方法(暑假)训练营8月3-7日 ·  2 天前  
人生研究所  ·  别再乱穿衣服了!现在流行「lulu风半拉链长 ... ·  3 天前  
51好读  ›  专栏  ›  智药邦

《合成生物学》期刊 | 上海交通大学王飞等:DNA存储系统中的数据写入

智药邦  · 公众号  ·  · 2025-01-23 17:38

正文

近期,来自上海交通大学化学化工学院的研究人员在《合成生物学》期刊上发表文章Data writing in DNA storage systems。

世界的数字化给人们的生活带来了极大的变化,但与此同时,史无前例的数据激增使得信息存储面临的挑战日益严峻。随着全球数据总量的指数级增长,传统存储介质将无法满足数字化带来的存储需求。使用DNA分子作为基本载体的信息存储展现出高存储密度、低维护成本和易于化学修饰等独特优势。DNA存储主要包括编码、写入、保存、检索、读取和解码六个主要步骤,其中数据的写入是实现DNA存储功能的基础。

本文首先介绍DNA存储系统中体外写入数据的策略方法, 主要分为将数据写入DNA序列和写入DNA结构两个部分, 接着概述体内写入数据技术的发展,最后将讨论DNA存储系统中数据写入面临的写入成本高、写入速度慢等挑战 ,并对大规模合成高纯度DNA、改进生物酶等具有前景的应用技术进行展望。

随着科学技术的发展进步,世界的数字化给我们的日常生活带来了极大的变化,为社会创造了巨大价值。但是与此同时,不断进步的数字化程度也带来了史无前例的数据激增,造成了日益严峻的信息存储挑战。按照目前的发展趋势,预计在2025年全球数据量将达到175 ZB,常规的信息存储介质将难以满足数据存储需求。DNA分子作为信息的载体,与传统意义上的存储介质相比具有很多优点,包括高存储密度、潜在的低维护成本、易于合成和化学修饰等。因此,DNA存储为高效存储大量数字信息提供了可能性。常规的DNA存储数据的过程包括编码、写入、保存、获取、测序、解码六个主要步骤。编码步骤完成后,在生物体外通常采用两种方案将数据写入合适的介质中:将数据写入DNA序列以及利用DNA纳米技术将数据写入DNA结构。将数据写入DNA序列无疑是最直接的办法,随着DNA折纸技术等纳米技术的发展,将数据写入DNA结构的策略也日益成熟,进一步提升了信息存储的维度。此外,也可以将数字信息写入到活细胞中,利用细胞的生命过程存储人工定义的信息。本文将首先介绍DNA存储系统的体外数据写入,接着介绍活细胞体内数据写入,最后讨论在DNA存储系统的数据写入具有应用前景的新型合成生物技术。

1  DNA存储系统体外数据写入

实现数据在体外的写入主要有两个策略,分别是将数据写入DNA序列和利用DNA纳米技术将数据写入DNA结构。随着DNA序列合成技术的日臻完善,将数据直接写入DNA序列的技术也随之发展。同时伴随着DNA纳米技术的发展,尤其是DNA折纸技术和框架核酸材料的应用,另一种不依赖于DNA序列的数据写入方式也取得了一定进展。

1.1  将数据写入DNA序列


1.1.1  基于化学合成的数据写入

在对信息进行编码后,将数字信息写入DNA序列的过程涉及DNA合成,通过合成DNA链的方式将数据写入。目前已经有多种方法可以支持合成长度为100~200 nt的DNA链。二核苷酸合成技术的出现以及四种单链长链核糖多核苷酸(聚UC、聚AG、聚UG和聚AC)的制备也使得从头合成DNA成为可能并且进一步得到利用。固相亚磷酰胺寡核苷酸合成法已经被广泛应用于DNA存储中数据的写入。此外,酶促合成DNA法作为低成本且可以合成更长链的方法,在较低容量DNA数据写入中取得了一定的成果,并有望实现更低成本的突破。随着在载体上的DNA合成方法以及微阵列合成技术的发展,并行合成大量不同的寡核苷酸成为可能。通过控制在特定链上添加碱基的机制,能够在固体基质的不同位点合成不同的序列。大规模DNA的从头合成在近70年来也取得了长足发展。

生成核苷酸间连接的亚磷酸盐偶联程序的发现和胸苷低聚核苷酸磷酸三酯中间体的合成开启了寡核苷酸的合成时代。寡核苷酸脱氧核苷N,N-二甲基氨基磷酰胺是支持脱氧寡核苷酸合成的非常有用的聚合物中间体,在乙腈中,1-H四唑可以有效催化反应的关键步骤——将共价连接到硅胶上的脱氧核苷酸与合适的脱氧核苷磷酰胺缩合,在氧化和脱三苯甲基保护后重复上述循环可以产生脱氧多聚胸腺嘧啶寡核苷酸。

然而,上述合成方法也存在一些缺点,比如亚磷酰胺支架稳定性差,需要使用大量有机溶剂,不能合成多重复序列,以及脱毒降低了目标寡核苷酸的产量和纯度等问题。

Ren等介绍了人工核苷酸在DNA数据存储中的应用,以实现每个核苷酸高于2比特的编码效率[图1(a)]。Choi等使用退化碱基作为A、C、G和T之外的编码字符,这增加了每个设计的DNA序列长度可以存储的数据量(信息容量),并降低了存储单位数据的DNA合成量。利用该方法,在实验层面上实现了3.37比特/碱基的信息容量[图1(b)]。此外,Fei等利用热响应性水凝胶具有高DNA负载量、长效保护性、可控热响应性和可重复使用的优势,将其用作DNA信息存储的载体。这种高信息存储密度方法也显示出其在 DNA 信息存储方面的巨大潜力。

图1  DNA存储系统中基于序列的体外数据写入策略

1.1.2  基于生物酶合成的信息写入

通过生物酶合成较长序列的方法因为具有可扩展性、立体特异性和环境友好而受到青睐,其可以介导DNA匹配识别从而实现选择性退火,减少每个延伸周期的步骤数量和对有机溶剂的依赖性,在有无DNA模板的情况下均能促进合成。使用不对称PCR产生长引物和单链DNA(ssDNA)的方法可以有效合成数千碱基的DNA链。为了合成更长链的DNA,需要提高循环效率、尽量避免如脱嘌呤等保护基不完全脱去或副反应的发生。

利用固相合成的原理,酶法合成可以通过使用现存模板合成DNA。1956年,Severo Ochoa从葡萄酒的固氮菌中分离出了多核苷酸磷酸化酶(PNPase)。PNPase是RNA代谢的一种成分,可用于体外合成多核苷酸。1971年,Mackey和Gilham使用PNPase合成了一个特定序列的RNA,随后Gilham和Smith利用相同的原理生成了ssDNA。然而尽管PNPase可以合成核糖核苷酸和脱氧核糖核苷酸,但是其净化困难复杂、可能限制序列设计、引物变大后链可能降解的缺点带来的局限性大于其益处。

1959年,F. J. Bollum描述了第一个能够独立于模板进行无引物合成DNA的ssDNA聚合酶——末端脱氧核苷酸转移酶(TdT),打破了引物-模板模式双链合成的限制。1962年,Bollum通过用乙酰基阻断可以阻止进一步的核苷酸添加,证实了dNTP是通过3′位置上的氧与引发链加成的。基于此Bollum提出TdT可用于将单体限制在3′位点的ssDNA聚合,分步合成具有特定序列的寡核苷酸。Letsinger和Mahadevan在1965年首次报道了在聚合物载体上化学合成DNA。由于起始材料(引发链)可以锚定在固体底物上,因此可以在全循环的基础上重复添加单体,并且可以在步骤之间从反应混合物中洗涤未合并的底物,而不会损失引发链。在1984年,Schott和Schrade将无保护的dNTP添加到可变长度的链引发链中,完成了使用TdT进行的单步寡核苷酸合成。

通过连接酶连接预先编码的DNA片段,也是DNA数据体外写入的有效方式。1978年,England和Uhlenbeck介绍了在prNp(朊病毒蛋白)的帮助下,T4 RNA聚合酶利用第一种方法合成ssDNA的过程。随后,在 1999年,首次报道了用T4核糖核酸连接酶进行固相酶促DNA合成。近期Pan等利用DNA切口酶制造切口,利用T4连接酶消除切口,通过两种酶的组合实现数据的重新写入。然而,T4连接酶在合成核苷酸方面也存在诸多局限性,如含有尿嘧啶的起始链反应性较低,连接需要的时间较长,如果反应混合物中存在未被约束的核苷酸,这些核苷酸单体将自身聚合,形成束状均匀聚合物,引起产物产量降低等问题。

Lee等描述了一种在动力学控制条件下利用模板非依赖性聚合酶末端脱氧核苷酸转移酶(TdT)设计的数据存储的新酶合成策略,信息存储在DNA链的不相同的核苷酸之间的转换中。为了产生代表用户定义内容的链,迭代添加核苷酸底物,产生短的均聚延伸,其长度由酶介导的底物降解控制[图1(c)]。Verardo等最近报道了一种单碱基分辨率的DNA多重酶促合成方法,证明了核酸序列和长度的微观空间控制是可能的。该方法设计了一个合成循环,包括利用硅微机电系统进行TdT和3′端封闭核苷酸的位点特异性喷墨分散,再对载玻片批量清洗以去除3′封闭基团。通过用固定化DNA引物在基底上重复该循环。受到中华传统发明活字印刷术预制活字现用现取的启发,Zhang等以表观遗传修饰为信息位,采用DNA自组装引导的酶甲基化在通用DNA模板上进行活字打印。该策略能够使用预制核酸而不是从头合成DNA,实现了并行写入任意数据。这种酶促打印过程有可能降低成本和时间,超出化学合成的极限,并且高度特异性的砖模板DNA组装赋予了数据写入的保真度。Gong等设计并实现了类似活字的DNA可移动型存储系统,该系统数据写入过程不是依赖于DNA合成,而是通过选择和组装特定的DNA可移动类型到更长的存储单元中来实现的。通过为这些短片段设计并优化了一种快速可靠的酶组装过程,确保了DNA中可靠的数据写入。该系统通过重复使用可移动的DNA片段,展现了DNA存储低成本写入的巨大前景。

使用化学或酶法合成DNA,将数字信息直接编码到DNA序列中是传统的DNA数据存储策略。然而,这种方法最显著的缺点之一是产生大量的有毒废物。一些其他因素,如合成大型DNA片段的成本,不存在或有限的重写信息的方法,以及与编码到合成过程的时间延迟,极大地限制了DNA存储的可扩展性。

1.2  利用纳米技术将数据写入DNA结构


1.2.1  利用DNA纳米技术数据写入的策略

DNA纳米技术的飞速进步使得DNA的精确操作和控制取得了革命性的突破,这种在纳米尺度上对DNA进行操作的技术为DNA数据存储开辟了新的途径。在基于DNA纳米技术的数据存储领域,可以利用DNA纳米技术的可操作性,精心设计特定的模式来进行存储。DNA纳米结构等编码块已被用于生成适合个人数据存储需求的定制模式。

单链DNA是最简单的元件之一,其被用于组装构建特定的结构后,可用作呈现二进制状态的编码字符。2004年,Shin等描述了一种利用可控DNA纳米图案的可重写存储器件[图2(a)],按照一定量配比混合的链形成了三个可寻址分支的自组装结构,这三个可寻址分支能够表示23种不同状态。利用碱基互补配对的原理将相应地址的状态由螺旋单链的“关”变化到线性双链的“开”,之后再利用完全互补擦除链的杂交,脱去线性双链,将地址重置为“关”,实现DNA存储中数据的写入和擦除。

图2  DNA存储系统中基于结构的体外数据写入策略

DNA折纸是一种生物分子自组装技术,在数百条“短链”的帮助下,通过折叠较长的支架链产生基于DNA的纳米结构。DNA折纸可以作为数字信息编码的支架,例如在2012年,Lin等报道了使用长度在800 nm左右的DNA六螺棒状结构,定点进行荧光标记,随后使用全内反射荧光显微镜和DNA-PAINT超分辨率显微镜进行信息读取,该方法也能够应用于数据存储。2019年,Zhang等报道了一种利用DNA纳米技术获得的DNA折纸,结合AFM表征进行加密信息传递的方法[图2(b)]。将信息编码成折纸表面的凸起图案,并通过生物素修饰的DNA组装到DNA折纸上以创建特定图案。Dickinson等在DNA折纸上使用具有对应单链DNA位点的区域表示“1”,相应地规定不具有对应位点的区域表示“0”[图2(c)]。通过使用DNA-PAINT监测是否有单链和荧光成像探针的结合情况来读取数据。

在DNA纳米结构基底之外,在其他基底如硅片表面和金表面组装DNA形成特定的折纸图案也能应用于数据存储。例如ssDNA已经被固定在微流体芯片上用于数据存储,用荧光信号表示二进制的状态,并且通过荧光微阵列扫描仪读取结果。Song等在2018年,将ssDNA固定在可单独寻址的电极上,通过电场诱导荧光探针杂交来控制数据写入。基于此开发了一种三位存储的设备,并且通过荧光成像读取存储的数据[图2(d)]。

利用ssDNA作为地址位点去固定其他如DNA纳米结构的编码字符是另一种流行的基于结构的数据写入策略。许多DNA纳米结构已被用于在双链DNA上创建特定的图案。例如Keyser课题组分别使用8 bp和16 bp的DNA发卡结构代表“0”和“1”[图2(e)],并且成功使用7228 bp的M13 DNA编码了56比特的数据,通过纳米孔传感技术进行解码。除了DNA发卡之外,其他纳米结构同样也能作为编码字符。例如通过toehold介导的链置换反应在DNA载体上组装合成不同大小的多向交叉结构用于2D灰度图像的加密和存储。利用这一类数据写入方式,可通过扩大纳米结构来实现存储容量的提升。除了DNA外,也可以使用其他支架作为用于数据存储的DNA纳米结构的载体。例如Zhang等已经证明了使用碳纳米管作为支架[图2(f)]来支持的核酸图案实现的信息存储。

DNA中碱基配对的特殊可编程性提供了通过简单的DNA链杂交诱导构象变化的机会。这种构象变化的特性已经被用于数据存储。例如双链DNA的开合构象被用作数据存储的位点[图2(g)],使用八个寡聚体来表示八个不同的比特并且存储了ASCⅡ编码下的文本消息“Hello world”,通过凝胶电泳进行信息读取。此外,还可以通过DNA纳米结构的构象来存储信息。例如Chandrasekaran等将六条ssDNA结合在双链DNA的六个位点上,利用碱基互补配对的原理设计两部分分别是两条ssDNA的DNA单链,通过单链与两条ssDNA的同时结合使得两个相邻位点之间的双链成环状,通过该部分双链DNA的构象来存储信息。最后通过凝胶电泳将信息读出。在2020年,Tabatabaei等介绍了一种大分子存储机制,利用ssDNA引导PfAgo核酸内切酶在双链DNA主链的特定位置产生缺口,将数据以缺口形式写入天然双链DNA,从而实现了ssDNA编程的可控数据写入,在一定程度上避免了DNA存储数据的读写延迟并降低了错误率。预先测定每个位点的位置,若位点结构完整则代表“0”,若其有一个缺口则表示“1”[图2(h)],那么利用DNA测序就能比对出缺口所在的位置,读出结构中存储的信息。

1.2.2  利用纳米技术将数据写入DNA结构的优势

在利用DNA纳米技术的数据写入策略中,根据碱基互补配对原理的DNA链杂交表现出来了极好的适用性。得益于其较高的可编程性,不同位置的数据写入可以同时进行。此外,DNA杂交的动力学优势也使得数据写入速度相对较快。开发的DNA杂交动力学预测算法也会有助于针对提高DNA链的杂交速率来设计DNA序列。

此方法也更加有利于数据的擦除和重写。基于DNA纳米技术的写入策略存储的数据擦除和重写更为简单和快速。如上文所述,toehold介导的DNA链置换反应已经被广泛用于数据的擦除和重写,并且展示了其较高的方便性。在擦除后,用于存储新信息的编码字符可以杂交到骨架上用于存储另一组数据。DNA链置换反应具有简单的设计规则与可预测的动力学特征,通过对DNA分子序列、构象、浓度的优化,即可实现较高的数据擦除与重写效率,为开发支持高频率数据修改的动态DNA存储系统提供了基础。然而,由于溶液中大量分子同时参与反应时,反应的正交性与有效性均随着电路规模的增大而下降,因此电路控制的DNA存储系统的擦除和重写仍受限于较小的数据规模。此外,前文中提到过的电场诱导的链迁移也成功应用于数据的重写。

基于DNA纳米技术的数据写入策略也有利于信息加密,这可以简单地通过在数据写入过程中省略关键元素来实现。例如,在Zhang等提出的DNA折纸隐写术中,通过隐藏长链DNA的折叠方式,实现信息的加密;在Tabatabaei等提出的利用酶促天然DNA形成缺口存储信息的策略中,就可以通过规定测序位点的位置来进行数据加密。

1.2.3  框架核酸在数据写入中的应用

框架核酸是指一类基于核酸明确定义的,利用如DNA折纸等DNA纳米技术构建的纳米结构。这些结构尺寸从几十纳米到亚微米级不等,涵盖一维、二维和三维形状,且其可以作为多功能平台在纳米尺度上组织分子。理论上说,框架核酸在比其他DNA结构具有更强的结构刚性的同时,可以根据设计者的需求,定制各种尺寸和形状的框架核酸材料。

框架核酸材料的可寻址性能够在一定程度上提高DNA存储过程中的数据写入速度。通过缩短最小化合成位点之间的距离,可以有效提高合成密度,从而增强DNA的同步平行合成能力,进一步加快存储过程中的数据写入速度,也能节约信息写入的成本。微软通过将两个合成位点之间的距离减小到2 μm,将DNA合成的面密度提高到2.5×107个/cm 2 。与之对比,通过利用可寻址位点距离为5 nm的框架核酸结构形成的阵列作为大面积合成平台时,理论合成密度可以达到每平方厘米合成4×1012条独特序列。

框架核酸材料可特定生成多样化结构的能力也使其在数据写入方面拥有巨大潜力。这么多不同的纳米结构丰富了DNA存储的编码库,而正是由于编码效率是由log2N决定的,N代表不同编码字符数量,所以不难看出,框架核酸材料在提高基于DNA纳米技术的数据存储中的信息存储能力具有巨大潜力。

2  DNA存储系统体内数据写入

在体内根据需求合成DNA,需要能够支持以预定义的方式将DNA写入。截至目前,已经证明了一些酶在DNA修饰和合成中的应用,比如重组酶和CRISPR-Cas核酸酶都在体内DNA存储中成功应用。

2.1  利用DNA重组酶进行的数据写入


DNA重组酶常用于DNA链的片段倒置、切除和取代,其可以通过识别特定的序列位点催化重组。

Ham等利用两个来自于不同细菌的正交重组系统,创造了可以在大肠杆菌中将状态信息编码进DNA的有限状态机[图3(a)],这种装置就是由每对仅出现一次的N对倒置位点构建的。Bonnet等也报道了一种基于通过控制重组方向性的工程实现活细胞内数据存储的信息重写功能[图3(b)],这种可重写重组模块利用了从噬菌体中提取的丝氨酸整合酶和激励酶倒置和恢复特定的DNA序列,这里发挥功能的丝氨酸重组酶并不需要细胞特异性辅因子,有望进一步拓展应用。噬菌体丝氨酸整合酶Bxb1产生的倒置可以通过共表达兴奋酶辅因子来逆转,从而实现在活细胞中数据存储的信息重新写入。

图3  利用DNA重组酶体内写入数据的策略

基于DNA重组酶介导的片段倒置和切除,Roquet等开发了一个可以在活细胞中记录和响应所有基因调控的特征和顺序的框架,并且进行了实验验证[图3(c)]。利用这种写入原理成功实现了使用三种正交重组酶在细胞中用16态重组酶有限状态机记录输入时间顺序。

此外,重组酶介导的DNA片段替代也是一种写入策略。Farzadfard等利用集成生物事件的合成细胞记录器实现了利用DNA记录活细胞群体中的信息。记录器是一种用于响应基因调控信号在活细胞内产生单链DNA的可编程模块化架构。当与重组酶共表达时,这些单链DNA将精确的突变引入到基因组DNA中,从而实现从瞬时细胞信号到基因组编码记忆的转化[图3(d)]。

2.2  利用CRISPR-Cas9系统进行的数据写入


作为细菌的适应性免疫系统,CRISPR-Cas系统通过获取入侵者的DNA并将其整合到CRISPR阵列中来保护细菌。该系统对基因工程产生了极大影响,也被用于体内DNA存储的数据写入过程。由于新间隔总是被整合在旧间隔前面,利用该外源DNA整合到CRISPR阵列的时间先后来构建一个数据记录系统。

从利用Cas1-Cas2进行数据记录到其复合物从RNA中获取信息,由于CRISPR-Cas系统能够精确可编程诱导双链断裂,其已经成为编辑真核生物基因的工具。将不同CRISPR靶向RNA位点阵列导入细胞作为高通量的分子信号记录器,McKenna等建立了可以记录细胞谱系的条形码[图4(a)],随后Chan等实现了哺乳动物细胞谱系的记录,证明了利用CRISPR-Cas系统体内写入数据的可行性。2016年,Perli等构建了一种用于记录人类细胞中DNA突变信号的模拟记忆器件,为体内存储数据写入和合成生物学提供了一种策略。这种模拟记忆器件将sgRNA(single guide RNA,单引导RNA)表达的DNA位点修饰为记录位点,通过在20 nt核苷酸序列的下游直接添加不同原间隔区相邻基序(PAM),将其转化为引导自身靶向的stgRNA(self-targeting guide RNA),从而实现持续的数据写入[图4(b)]。上述系统主要通过擦除DNA来实现数据的写入。Loveless等通过使用TdT酶在Cas9诱导的双链断裂(DSB,double strand break)上随机添加核苷酸实现stgRNA表达位点上DNA写入[图4(c)]。

图4  利用CRISPR-Cas体内写入数据的策略

工程化的CRISPR-Cas系统能独立进行基因编辑,如碱基编辑和引物编辑。通过碱基编辑,可以将数据写入细菌和哺乳动物细胞中,碱基编辑由失活Cas核酸酶和核碱基脱氨酶融合而成的碱基编辑器实现,能在基因组DNA中精确位点上产生突变。引物编辑器由一种与聚合酶结合的可编程内切酶组成,可以实现基因组DNA中的绝大部分小段序列替换、插入和切除,其依赖一类指定靶点和提供编辑模板的引导RNA行使功能。Choi等报道了一种DNA打字机[图4(d)],可用于通用性的体内分子事件记录。其空白介质由CRISPR-Cas9靶位点串联阵列组成。将除第一个位点外其余靶位点的5′端都截短,使之失去活性。插入的5 bp片段包括2 bp的pegRNA特异性条形码以及激活下一个单体的3 bp密钥。由于基因组编辑是有顺序的,所以记录事件的时间顺序可以简单地通过它们沿着阵列的物理顺序读出,从而实现DNA存储信息体内写入。Liu等 将基于基因编辑工具的双质粒系统引入大肠杆菌中,使用高密度编码算法将存储在二进制代码中的数字信息编码成DNA序列,然后将这些序列克隆到活细胞的质粒中,用于长期存储、数据扩增和信息重写。通过用供体DNA片段替换信息质粒内的靶DNA片段来特异性靶向重写原始信息[图4(e)]。Sadremomtaz等为了解决DNA存储可扩展性的问题,提出一种“DNA突变覆盖存储”(DMOS)策略,并且开发了一个使用CRISPR碱基编辑反应的可编程分子写入系统。Lim等将视线转向活细胞,开发了一种新颖的BacCam系统,将寻址空间能力与光遗传系统相结合,直接将信息数字化编码到DNA中,并展示了生物系统与数字设备集成的应用前景。

3  DNA存储中数据写入的挑战

尽管DNA存储系统中数据写入在近年来取得了重大进展,但其依然存在诸多困难。不论是体内写入还是体外写入,每种策略都面临挑战。

将数据写入DNA序列,主要优点在于其超高的存储密度。尽管DNA合成技术已经取得极大进步,但是DNA寡聚池的大规模合成还面临着合成速度慢、成本高等问题。速度方面,24 h内将1 TB数据存储在DNA中需要合成数千亿个不同寡核苷酸,然而目前的DNA合成并行度仍远远难以满足需求。成本方面,现有的阵列技术DNA合成报价为1 kB数据0.01~0.1美元。DNA序列存储应用也因为将数据写入序列成本过高而并不可行。除了时间长和成本高的问题外,将信息写入DNA序列需要权衡合成寡核苷酸的长度和准确性。由于精度和产率的显著下降,现有的方法通常利用短于200个碱基的DNA链来进行数据存储。而由于每个寡核苷酸中需要包含索引信息以便数据重建,因此寡核苷酸越短,需要索引越多,信息密度也就随之降低。

基于DNA纳米技术的数据写入相较于将信息写入DNA序列而言,写入速度较快、合成要求较低,但是数据容量较小的问题限制了其进一步发展。目前主流的写入策略,如DNA穿孔卡系统能存储的信息量有限,通常在几十千字节以内。因此基于DNA纳米技术的信息写入能够实现的数据容量距离可实际应用还需要大幅扩展几个数量级。

体内的DNA存储系统数据写入过程不仅存储容量有限,写入速度也相对较慢。单个dCas9-RNA复合物在大肠杆菌中定位靶点大约需要6 h,那么体内DNA数据写入需要消耗几小时到几天不等。

4  有应用潜力的合成生物新技术







请到「今天看啥」查看全文