来源:循因缉药
最近观察到一些有意思的论调,比如强行划分测序技术的一二三四代,比如有人认为四代一定完爆二代三代测序、三代完爆二代一代测序,让大家误以为代际之间是替代关系,这是不妥当的。
之所以会这样去宣传造势,是因为很容易让大家联想到通讯技术上。
人们直观感受4G确实比3G好,5G也比4G强,那么将这种认知带入到测序领域,就会产生四代测序技术就是比二代、三代测序技术强的错觉。
商业嘛,毕竟新入局的有融资压力,得创造新的引流点吸引资本的注意,可以理解。
而我们认为,
测序只有技术原理和适用的场景不同,不必刻意去强调。
那么今天,咱们就来聊一聊这所谓的一二三四代测序技术,有个形象的了解。
先上图,当然这里面有一些是不准确的,我们接下来会聊到。
大家有没有想过,
一二三四代测序技术是谁下的定义?怎么就被归为哪一代测序技术了呢?
其实代际划分一般是商业上的定义或者是俗称,有一些叫法甚至企业自己都不爱用。
首先一代测序是最没有争议的,之所以被称为Sanger法测序是因为这是测序界的“祖师爷”Sanger博士发明的
。
1977年,“自费上班”的牛人Frederick Sanger博士发明了双脱氧终止法(Sanger法)测序技术,并以此完成了噬菌体X174的基因组序列测定。
事情到了二代测序这里就有点起了变化,一般二代测序被称之为NGS,
也就是Next-Generation Sequencing下一代测序。
当时之所以这么叫,是因为NGS开创了一个绝妙的测序方法,那就是大规模并行测序技术(Massive Parallel Sequencing)。
先对一条特定序列在测序芯片上进行扩增,形成一个点或者说cluster,这样信号强度就足够大,保证了检测的准确度,
虽然,在测序芯片上的一个点只代表一条序列,但是,这张芯片上有上千万条不同(或相同)的序列,只要测得足够多我就一定可以把这些序列拼接起来。
在NGS领域,历史上不同技术路线和背后的商业公司灿若星河,既有现在的领头羊Illumina、我国测序届扛把子MGI华大智造,也有如流星闪过的Roche 454和ABI SOLiD。
有观点认为,应该把Helicos公司的老古董也算作三代测序,因为他是单分子的测序的。
而这引起了PacBio SMRT(single molecule real time)的不满,好歹得具备长读长吧。
最终,三代测序也没形成一个确定的答案,也就凑合着让PacBio一家独占了,所以一般都叫PacBio测序。
PacBio能够独占三代测序,还有一个功劳要给Oxford Nanopore为代表的纳米孔测序派。
本来要把他们也放到三代测序里面,实现单分子外加长读长,似乎怎么看都是三代的标准,然而就是有好事者就要单独辟出个四代测序来,认为只有纳米孔测序才配四代测序这个名字。
好了,这样看下来我们基本有了一个大概的认识那就是以一二三四这样的代际称谓强加到不同测序技术上,其实问题比较大,还不如直接按照一般学术名称来的方便点。
强行标榜X代,说白了就是为了商业区隔(是懂定位心智理论的),且容易误导大家,失去了技术本身应有的味道。
还有一种划分方法,我觉得也有道理,那就是把几十到几百读长的测序技术归于短读长测序(Short Read Sequencing,SRS),把能测上KB级甚至MB级的测序技术归为长读长测序(Long Read Sequencing,LRS),这也蛮合理嘛。
长读长模式下,好比在1000米的距离按照直线布置10个靶子,用狙击枪一枪解决10个靶子不成问题,但是万一这10个靶子不在一条直线上,那就会出现错误了。
短读长模式,好比在1000米的距离上也布置了10个靶子,不过是横向布置的,用冲锋枪突突突来他一个弹夹(甚至是一群人同时进行),也是射击了1000米,也照样都中靶。
更气人的是,冲锋枪一个弹夹可能比狙击枪一发子弹都便宜。
你能说长读长比短读长好么?那必然不能这样说,还是得看应用场景是什么。
自测序技术诞生以来,困扰业界的不可能三角就展示了其长久的生命力。
不仅在Sanger法测序、NGS还是目前阶段PacBio/ONT为代表的长读长测序也面临同样的问题。
尤其是在价格和质量上面,还与NGS存在着不小的差距。
我们都知道,纳米孔测序此前还在单碱基Q20的线上挣扎,是无法担当起廉价、管饱的口粮任务的。
不过,我们的科学家是务实的,他们很会利用各个技术的优势。
中国水产科学研究院黄海水产研究所(下文简称“黄海水产研究所”)海水养殖生物育种与可持续产出全国重点实验室在南极磷虾超大基因组组装、极端环境适应和群体历史演化研究方面取得突破性进展。
研究成果以“ The enormous repetitive Antarctic krill genome reveals environmental adaptations and population insights ” 为题于3月2日发表于国际顶级期刊CELL(《细胞》)。
研究中既使用了PacBio的长读长测序技术,也使用了MGI华大智造的短读长测序技术。
而这种方式已经是业界普遍采用的方式,比如目前科研界比较流行的T2T(Telomere-to-Telomere)基因组研究。
在此之前,在De novo测序领域,也普遍采用NGS+Sanger测序的方式来组装基因组。
反观PacBio此前寻求的是专属应用场景的探索,比如说在高GC区域、大的SNV测序、De novo测序等方面的市场开拓,其实是比较艰难的。
不仅这种应用场景是偏少的,并不能够占据主流,且还面临着要跟NGS搭配分走一杯羹。
Illumina在2023年JPM大会上提到,测序行业面对的是一个1200亿美元的大市场。
其中可以看到,研究和应用领域只占到大约20%,呃,还得大家一起分。
所以,产业上来看,以Nanopore和PacBio为代表的长读长平台仍然处于应用场景开拓期。
从2022年全年的营收上来看,ONT不到2亿英镑(还有5000万的新冠应用)的总营收确实离称王制霸差点距离。
就连成立了快20年的PacBio,其营收也只能占不到Illumina 1/30。
那么为什么NGS仍然能够牢牢占据各个应用场景,称王称霸呢?
自2007年开始,测序成本在NGS技术的带领下,开始以超摩尔定律的速度下降。
从原来的一个基因组1亿美元迅速下降到1000美元以下,这里不得不提咱们国内的MGI华大智造。
2023年华大智造DNBSEQ-T20x2发布,这代表了目前NGS对成本追求的极致水平,成功将人类基因组测序技术压到了100美元以下
。
单就人类健康领域,从无创产前筛查、单基因遗传病筛查、肿瘤早筛、用药检测、药物基因组学、mNGS等等,每一个领域NGS目前都成为了事实上的主流。
这些应用场景有个很显著的特点,那就是比拼的是reads数,而不是你能测多长。
这有点像大海捞针,我们是看同时有多少人在捞而不是看这个人一下子能游多远。
更需要注意的是,NIPT、肿瘤液体活检这些应用目标片段也就是不到200bp,就算能测100Mb也是浪费啊。
在疾病防控领域,最为知名的一战恐怕是COVID-19的基因组测序,在2019年12月COVID-19的基因组就是用华大智造DNBSEQ-T7完成,这是来自NGS。
分子育种领域,国内的龙头企业影子基因和博瑞迪的研究工作均在DNBSEQ-T7上完成,也是来自NGS。
登上CNS(Cell,Nature,Science)赢得大满贯的华大时空组学Stereo-seq技术,同样来自NGS。
在科研、临床应用火的一塌糊涂的Olink蛋白组学技术,还是以NGS技术为基础。
时至今日,NGS企业仍然在不断优化、创新技术,试图在测序速度、成本和精度上将NGS技术推向新的高度。
测序速度上,华大智造的DNBSEQ-G99,在SE50的测序模式下仅需3小时即可完成测序工作,这对mNGS之类的时间敏感型应用场景来说可谓至关重要。
测序精度上,以Onso为代表的NGS解决方案将测序精度推高到Q40甚至Q50。
这对于对测序质量有高要求的应用场景-比如肿瘤的MRD(Minimal Residual Disease)检测-就至关重要了。