这几天,
如果说游戏圈最火的是
《黑神话:悟空》,那么测序圈最火的一定是飓风,
CycloneSEQ这个飓风
,就是
华大智造马上要商业化推出的那款纳米孔测序仪
。
早在今年六月初,华大智造就宣布要商业化兄弟公司华大序风研发生产的纳米孔测序产品。
一直以来,大家对于这款纳米孔测序仪有很多猜测,关于其技术路线、实现方式等有各种小道消息。
几天前,华大序风联合华大智造等在bioRxiv上挂网了预印本文章,主动曝光了自家开发的纳米孔测序技术平台CycloneSEQ,不藏着掖着了,也不用外界再来猜测了...
犹如其名字一样,人们惊呼测序飓风来袭,ONT的竞争者终于来了,一时间引发海外测序社群中众多热议和讨论。
海外群体一边震惊地问
“他们什么时候开始做纳米孔测序的”
,另一边惊喜地发现,
在纳米孔测序上,中国公司这次带着独特的创新而来
。作为短读长测序领域的强势崛起者,在长读长测序领域,
华大智造也正在
迎头赶上。
CycloneSEQ
实现了在单张芯片上进行长时间测序(
107
小时
)的高产量(
>50 Gb
)。在人类基因组
DNA
测序中,
CycloneSEQ
能够产生
N50 33.6 kb
和
模态
97.0%
准确率
的长读长。
在这篇名为《
单分子纳米孔测序平台
》的预印本文章中,华大团队详细介绍了其纳米孔测序平台
CycloneSEQ
的
几项独特创新与改进,包括全新的马达和孔蛋白、
NLC
纳米孔局部化学测序、碱基调用算法、高密度测序芯片设计等
。
单链
DNA
穿过纳米孔阻碍离子流动所产生的电流变化,提供了识别不同
DNA
碱基的纳米孔信号,通过检测这些电流波动,并借助机器学习算法进行分析,便可测定
DNA
序列。这样的纳米孔测序原理经学术界和工业界的不断验证开发,已经被牛津纳米孔技术公司等所应用并商业化。
纳米孔、控速马达蛋白、承载纳米孔的膜、测序文库构建等构成了纳米孔测序的化学基础,而测序芯片与信号采集专用集成电路(
ASIC
)等整合的硬件、用于监控分析
DNA
读数的生信软件则构成了纳米孔测序的实施主体
。在发表的研究中,华大展示了他们对这其中多个元素的创新开发思路。
首先,
在最关键的孔蛋白和马达蛋白上
,通过在深海宏基因组数据库中进行全面的序列和结构搜索,他们发现了许多具有新序列和结构的蛋白。这些新发现的蛋白质
与已知的孔蛋白或解旋酶(马达蛋白)表现出较低的序列同源性(约
35%-50%
)
,通过
AlphaFold3
预测的结构表明,它们与已知结构相比表现出
显著的结构新颖性
。
AlphaFold3 结构预测解旋酶(上)和孔蛋白(下)的示意图
通过广泛的实验筛选和突变工程,他们候选了马达蛋白
BCH-X
(实现了约
380 bp/s
的测序速度)和孔蛋白
BCP-Y
(可以高效嵌入膜中,在不同电压下呈现低噪声的开孔电流)。
BCP-Y
与
BCH-X
结合,可以促进
ssDNA
转位和测序,测序电流信号具有较高的信号复杂度和良好的信噪比。
解旋酶 BCH-X 与孔蛋白 BCP-Y 偶联产生的单个 DNA 链的代表性纳米孔测序电流信号
其次,
在测序方法优化上
,华大引入了新的
纳米孔局部化学
(NLC)
测序
。纳米孔内或附近的局部化学环境会影响到测序的性能和准确性,如局部的离子浓度、
pH
值的变化和其他分子种类的存在与否等等,本质上这改变了核酸分子在测序过程中的速度和行为。
NLC
化学在纳米孔的每一侧创建了一个不对称的化学环境。
由于马达蛋白特别是使用的解旋酶需要镁离子和
ATP
才能正确解开
DNA
双螺旋,华大团队利用镁离子创建了这个不对称的化学环境。具体来说,
在顺式侧,测序缓冲液不含镁离子
(Mg2+)
,而反式侧的电解质含有
20 mM Mg2+
。
纳米孔局部化学 (NLC) 测序方法示意图,图下为Mg2+ 离子浓度分布
当在顺式侧引入文库分子(
dsDNA
和解旋酶的混合物)时,由于缺乏
Mg2+
,
DNA
双螺旋无法正确解开。而在施加跨膜电位(
U = 180 mV
)后,
Mg2+
离子从反式侧运转到顺式侧,
在顺式侧的孔附近产生
Mg2+
局部浓度梯度
。这样,纳米孔入口附近被电场捕获的文库分子就在被
Mg-ATP
激活的解旋酶作用下开始被测序。
与传统纳米孔测序电流轨迹相比,
NLC
测序产生了非常相似且看起来更为丰富的特征电流值。
还有
在碱基调用算法上
,华大团队采用了
预训练加微调
的开发思路,
将
Facebook
开发用于语音任务的预训练模型
wav2vec 2.0
用于碱基调用
。语音数据和纳米孔产生的电信号数据从形式上来看有着异曲同工之处。本质上,
预训练模型从大量未标记数据中学习
“
理解
”
数据,然后微调使用预训练的权重来快速收敛并提高下游任务的准确性。
在标记数据有限的情况下,这样的算法提供了一种
相对低成本却高准确率
的方法。对人类和其他物种数据的实验表明,这种预训练使模型
能够跨物种推广
,当然在涵盖多物种的多样化数据集上进行预训练可进一步降低错误率并加速收敛。
最后,华大团队
改进了纳米孔测序的芯片设计
。每个传感芯片本质上是一个微井阵列,微井中铺有膜(华大这里是用了脂质分子双层膜),蛋白孔被插入均匀形成的膜阵列中,每个微井的底部都与微电极连接,电极可精确测量核苷酸序列通过孔引起的离子电流中断。
华大在测序芯片上使用了
高密度纳米孔阵列
,优化了纳米孔之间的距离,
每个微井间距
200 μm
(因此最大纳米孔密度约为每平方毫米
28.9
个)。他们也设计了
微井壁结构,以最大限度地增加每个孔内的电解质缓冲液体积
,从而延长测序运行时间。除此之外,他们还
缩减了微井的直径
,最小化孔径(直径
≤76 μm
)最终能减少膜面积,而
较小的膜面积可实现较低的膜电容(
≤20 pF
)和降低的噪声
,从而提高测序的信噪比。
最终,
CycloneSEQ
的流通池由上样处理液体的微流控芯片、一个含有纳米孔的阵列芯片、一个信号采集专用集成电路(
ASIC
)和一个带有表面贴装元件的印刷电路板组成。
基于这样的设计,华大
CycloneSEQ
可以
支持超过四天的连续测序
,并具有一致的开孔电流,在单个流通池上对大肠杆菌基因组进行了
107
小时的测序(这里不使用缓冲液重新冲洗或文库清洗),累计产生了
53.4 Gb
数据。
在测序流程上
,待测序的样本通过裂解、核酸提取等方法处理,提取出长链
DNA
分子。然后对这些
DNA
分子进行修复和接头连接。随后将流动池安装在
CycloneSEQ
测序仪的插槽中,进行芯片自检,系统会指示芯片是否符合质量标准以及每个芯片上有效纳米孔的数量。之后按照特定顺序将测序试剂和待测序的文库分子依次加入芯片的端口,通过软件启动测序过程。一旦开始测序,与测序仪搭配的高性能工作站便可开始碱基调用过程。
那么
CycloneSEQ
的测序性能到底怎么样?
华大在这篇文章中也给出了一些数据。
首先是标准品
HG002
的
WGS
测序,
平均读取长度为
19.2 kb
,
N50
为
33.6 kb
(可以理解为读取中有一半的序列长度大于该值),
平均碱基质量值主要在
12
到
16
之间
。关于准确率,
读取的模态准确率为
97.0%
,
总体每碱基错误率为
3.94%
,其中
最常见的错误类型是删除
,其次是错配和插入。
在
HG002
基因组的变异识别
上,华大使用了内部生物信息学工具
LRAPmut
和
LRAPsv
进行变异识别。对于
SNP