DNA
存储
,已经显示出在存储密度、寿命和能耗方面,
超越当前基于硅的数据存储技术的潜力。
然而,通过从头合成将大规模数据,
直接写入
DNA
序列
,在时间和成本上,仍然不够经济实惠。
在此,来自
美国亚利桑那州立大学
的
严浩
、
北京大学
的
张成、
欧阳颀
以及
钱珑
等研究者提出了一种
替代的并行策略
,可以使用
预制核酸在
DNA
上写入任意数据
。
相关论文以题为
“
Parallel molecular data storage by printing epigenetic bits on DNA
”
于
2024
年
10
月
23
日发表在
Nature
上。
全球数据领域的快速扩展对大规模数据存储提出了迫切挑战,并急需更好的存储材料。受自然界中基因信息保存方式的启发,
DNA
因其卓越的存储密度和耐久性,近年来被认为是数字数据存储的有前途的生物材料。
在当前的
DNA
存储中,数据通常被转码为核苷酸碱基序列,写入过程依赖于全新合成,即核苷酸按照预定顺序逐一添加。尽管全新合成技术在吞吐量和效率方面不断进步,但串行合成过程本质上限制了写入速度和合成
DNA
的长度,并阻碍了数据写入成本的大幅降低。
为了实现高效的
DNA
存储,必须寻找不依赖全新合成的替代数据写入方法,这些方法应能够并行且可编程地工作。实际上,已经提出了一些优雅的并行写入设计,例如通过结构编程的
DNA
载体实现并行写入,但结构不稳定和信息处理吞吐量有限等问题阻碍了这些方法的应用。
相比之下,在人体细胞中,表观基因组在不变的基因组序列之上编码了稳定的修饰信息。同样,一个表观编码数据的系统可能足以在相同的
DNA
序列上实现长期信息存储。
然而,当前体外的表观遗传信息并行写入在数据选择性上不够灵活。因此,为了实现无合成的
DNA
数据存储,一个能够在通用
DNA
上编程任意表观遗传信息的框架是理想的选择。
另一方面,
DNA
自组装已经被广泛研究,并能够在纳米尺度上实现精确的分子编程。
DNA
序列编程使得在大规模上对超分子结构进行并行且精确的控制成为可能。
之前的研究展示了使用数千种
DNA
链条在一次反应中编程多微米交叉
DNA
结构和线框
DNA
多面体的能力。
在此,
受到自然表观基因遗传继承和合成
DNA
自组装的启发,
研究者开发了一种
非传统的
DNA
数据写入框架
,该框架
基于
DNA
自组装指导的酶促甲基化
,能够并行稳定地将
任意表观遗传信息位(
epi-bits
)写入
DNA
模板
。
通过自组装引导的酶甲基化,表观遗传修饰作为信息位,可以精确地引入到通用
DNA
模板上,以实现分子可移动型印刷。通过对有限的
700
个
DNA
可移动类型和
5
个模板进行编程,
研究者
在一个自动化平台上实现了大约
275,000
位的无合成写入,每个反应写入
350
位。
以复杂表观遗传模式编码的数据,
通过纳米孔测序高通量检索,并开发了算法,每个测序反应可精细解析
240
个修饰模式。在表观遗传信息位框架下,
60
名缺乏专业生物实验室经验的志愿者实现了分布式和定制的
DNA
存储。
研究者
的框架提出了一种新的
DNA
数据存储模式,它是并行的、可编程的、稳定的和可扩展的。这种非常规的模式为生物分子系统中的实际数据存储和双模式数据功能开辟了道路。
图
1
epi-bit
DNA
存储示意图。
图
2
选择性
epi-bti
写入的设计与验证。
图
3
可编程
DNA
排版和并行
epi-bit
书写。
图
4
通过一锅测序扩大外位数据存储和数据检索。
图
5
利用
epi-bits
条形码实现高并行度的大规模存储。
图
6
定制和分布式
epi-bit DNA
存储。
综上所述,随着
DNA
数据存储进入商业化的曙光,
epi-bit
框架展示了具有预制模块化的并行分子信息存储的潜在方向。展开了广泛的研究路线。例如,优化序列设计和甲基转移酶效率将实现稳健和精确的数据写入。
存储密度可以进一步增加,通过纳入各种
DNA
修饰与准确的检测方法相匹配。最后,结合
DNA
自组装辅助编程和无数的酶修饰,可以为实用和功能化的分子数据系统实现多样化的
DNA
存储和计算功能。
PS
:对此,
Nature
期刊针对这项研究,特邀请
Carina Imburgia & Jeff Nivala