生物学研究的复杂性要求研究人员不仅需要考虑单个基因或遗传模式,还要考虑生物体的全部遗传信息(基因组)及其更多的功能,由此对基因测序技术也提出了越来越多的要求。
上世纪70年代出现的
一代测序技术
虽然准确度高,且在构建载体、基因敲除等实验中得以广泛应用,但其在通量、成本、读长、速度等方面均存在劣势。随后出现的
二代测序技术
(NGS)能够同时对上百万甚至数十亿个DNA分子进行测序,实现了大规模、高通量的测序,但在读长与速度方面依旧没有明显提升。
在计算机学、生物学和化学等多个学科领域的结合发展下,出现了三代测序技术(SMRT)。该技术的测序读长可以达到几十kb级别,解决了一、二代测序技术短读长的问题。
长读长测序由于读长超长,能够对短读长测序无法处理的区域进行测序:如端粒,高重复区域以及复杂的结构变异,照亮了此前基因组中的暗区域。长读长测序能够检测长度为1000到20000个碱基或更长的DNA(或RNA)片段。这些片段通常来自于“原生”分子,这些分子是直接从生物样本中提取出来进行分析的。相比之下,大多数短读长测序技术只能检测50-300个碱基长度的片段。
2022年,长读长测序被
《Nature Methods》
评为年度技术,开始越来越多地应用于各类重要的研究项目中,尤其是在处理基因组中复杂且具有挑战性的区域时展现出极大的潜力。
2022年3月,Science首次公布人类基因组完整测序结构。在这项研究中,
T2T
联盟利用长读长测序PacBio Hifi及ONT,完成了人类基因组中最后8%剩余区域的测序。该区域正是此前20年来,短读长测序始终无法解决的区域。
2023年5月,首个人类泛基因组草图于
Nature
公布。其中,PacBio HiFi和ONT的长读长测序数据,使得新的基因组参考图谱能够更清楚地发现结构变化。
目前,长读长测序主要以PacBio公司的HiFi测序和Oxford公司的Nanopore Technologies(ONT)为代表。
三代测序最早是2000年代初由PacBio公司提出来的。
当时,Stephen Turner博士和Jonas Korlach博士在康奈尔大学进行研究,他们意识到现有基因测序技术的局限性,并决心开发一种新型的测序技术。这一愿景促使他们在2004年共同创立了Pacific Biosciences。
2005年,PacBio开发出了基于零模式波导(ZMW)阵列的SMRT测序技术,实现了长达数万个碱基的DNA分子实时测序。
与传统的短读长测序技术相比,SMRT技术能够一次性读取单个DNA分子的完整序列,从而提供更长的读长和更高的准确性。
这一技术的关键在于其独特的纳米流体芯片,能够在单个分子层面上实时观察DNA聚合酶的活动,从而实现对DNA序列的直接读取。
2010年,PacBio完成了首次公开募股,成功在纳斯达克上市,股票代码为PACB。这标志着公司正式进入公众视野,并获得了更广泛的资金支持。
经过数年研发和技术创新,PacBio在2011年推出了其首款商业化测序系统——PacBio RS。
这一系统的推出标志着长读长测序技术正式进入市场,为基因组学研究和应用开辟了新的可能性。
PacBio RS的推出不仅巩固了公司在基因测序领域的领导地位,也吸引了众多投资者的关注。
随着技术的不断进步,PacBio继续扩大其产品线。2016年,PacBio推出了Sequel系统,这是对前一代RS系统的显著提升,在读长、吞吐量和效率方面都有了显著提升。
此后,PacBio又在2019年和2020年分别推出了Sequel II和Sequel IIe高通量测序仪,进一步提高了测序精确度,并且与多个项目和公司展开合作,如SolveRD项目、All Of Us项目等。
HiFi测序是所有PacBio长读测序仪器上运行的核心化学技术,
是PacBio的科学家基于基因组分析中对长度和准确性的双重需求所开发,
为基因组学研究提供
了前所未有的深度和精度。
基于该技术的成功,2021年PacBio从软银获得了9亿美元的投资,也为公司未来几年扩展运营规模和新产品开发注入了新鲜血液。截至2023年,PacBio的财务报告显示公司收入显著增长,年度收入同比增长56%,表明公司的市场认可度和产品需求持续上升。
测序读长最高达25000个碱基,
准确性达99.9%
HiFi测序是一种单分子、长读长度的测序技术,能够生成长且准确的读取序列。
目前,PacBio的HiFi测序读长最高可达25000个碱基,而短读长测序技术通常在500个碱基以内。在实现读长超长的基础上,HiFi测序还能使准确性达到99.9%。综合读长和准确性指标,使得HiFi测序能够在基因组学中极具技术挑战的领域大放异彩。
同其它高通量测序类似,
HiFi测序同样是边合成边测序,但HiFi测序无需进行PCR扩增,而是对提取出来的原生分子的DNA片段直接进行测序
,因此被称为“高保真测序”(HiFi即High-Fidelity的缩写)。
至于为什么HiFi测序无需进行PCR扩增,并且能够兼顾长读长与准确性,还要从它的技术原理说起。
首先,HiFi的测序文库十分特别,在线状的DNA片段两端,插入发夹型衔接子,形成一个环状的模板。其次,将引物和聚合酶添加到这个模板上,形成DNA复合物。这样建库的好处是,由于DNA片段形成了一个完整的圆环,就能够对其进行周而复始的滚换复制、滚环测序,从而提高测序的准确度。
SMRTcell芯片是HiFi测序的核心,用于在PacBio长读长测序仪器上进行HiFi测序的化学反应过程。SMRTcell芯片的内部表面包含几百万个纳米级小孔,称为ZMW(零模波导)孔。文库构建完成后,这些经过处理的DNA分子会被随机铺撒到ZMW中。
玻璃底板预先标有链酶亲合素,DNA分子上的聚合酶标有生物素,利用生物素合酶亲合素的亲合力,DNA分子就能通过分子上的聚合酶被固定在ZMW小孔的玻璃底板上。
测序的聚合反应就在这些小孔中进行,并产生相应的DNA序列数据,但并不是所有小孔都能输出有效数据。
这是因为,DNA分子是被随机撒入小孔,但只有固定了单个DNA分子的小孔,才能输出有效数据。若小孔是空的,则不能产生信号。若小孔中撒入了多个DNA分子,则会产生杂乱的信号,在后期的数据分析中,将会被去除。
由此可见,
HiFi的测序通量受到ZMWs的限制。
在SMRTcell芯片内,密集排列的ZMWs越多,一次可以测序的分子数量就越多,测序通量也就越高。
近年来,
PacBio对SMRTcell芯片进行了升级,使其测序通量有了飞跃式提高
。
目前,PacBio系列中最强大的芯片是Revio SMRTcell芯片,芯片内集成有2500万个ZMWs。根据官方数据,在特定条件下,一张Revio SMRTcell芯片24小时可生成高达90GB的HiFi序数据。
当DNA分子被铺入SMRTcell芯片后,就会加入带有荧光标记的
dNTP
底物。这些dNTP底物在其磷酸基团上被标记四种不同颜色的荧光基团,分别代表四种碱基。
反应时,当一种与正要合成的碱基一致的dNTP经过时,就会被酶较长时间地抓住。激发光从小孔的底部照进来,打在被抓住的dNTP上,就会发出荧光,仪器根据拍到的荧光颜色,就可以判断是哪种碱基了。
由于测序小孔直径很小,激发光的穿透能力会逐渐衰减,只能在小孔中传输很短的距离,所以只有当dNTP足够靠近底部,荧光基团才会被激发光照到,发出荧光。而其它游离的dNTP因为停留短暂,发出的噪音就会被抑制到很低的水平。
在一个聚合反应结束后,焦磷酸基团连通带着的荧光基团一起从原来的dNTP上掉下来,并被溶液带走,然后开始下一个聚合反应。
HiFi测序对单个碱基的判读并没有非常高的准确率,但好在它的错误都是随机的,不存在偏向性,因此,可以通过增加对同一个序列的重复检测,来提升数据的准确性。
此外,前文提到HiFi的测序文库中,DNA分子复合物是环状模型。测序时,DNA聚合酶在样品DNA分子的环状结构周围工作多次,类似于赛车在环形赛道上重复绕圈。由于聚合酶在ZMW孔中产生了DNA分子的多个副本,因此PacBio长读长测序系统可以通过交叉参照每个分子的副本来确定样品DNA的正确序列,从而提高准确性。这一优化方式就是循环一致性测序(CCS)。
综上所述,HiFi测序的优势可以总结为五个方面。首先HiFi是基于单分子测序,测序模板为单独的DNA链,因此可以用来区分相似序列之间的区别。
其次是长读长,HiFi测序能够提供15,000-20,000个碱基对或更长的读长,能够让基因组组装变得更加准确、高效。此外,超长的读长使其可以对完整的mRNA直接进行从头测序,获得全长转录本序列。
同时,HiFi测序具备高准确性,通过循环一致性测序,HiFi测序能够生成>99.9%准确性的reads。
此外,HiFi测序无需PCR扩增,通过消除PCR扩增所带来的偏差,HiFi测序能够分析其它技术通常难以获取的基因组区域,如AT和GC富含区域、高度重复区域、长同源聚合物和回文序列。
最后,HiFi测序可直接检测到碱基的被修饰状态。在测序中,遇到甲基化的碱基,聚合反应速度将明显放慢,且光谱特性也会发生改变,从而可以直接检测到碱基的甲基化状态。
HiFi测序的技术特性决定了其在一些复杂基因组研究中具有独特优势,为一些使用其它技术手段无法解决的问题提供了新的解决途径。
目前,PacBio HiFi测序具有显著优势的应用场景分别为
单倍型分型、基因组组装、变异检测以及表观遗传学研究等
。
其中,在单倍型分型方面,HiFi测序长读长、高准确度的特性使之能够用来帮助研究者区分每个染色体的拷贝或单倍型(例如母系或父系遗传)之间的差异,生成完全定相的二倍体基因组组装(而非忽略同源染色体之间差异的折叠基因组组装)。
在基因组组装领域,HiFi测序能够帮助研究人员高效、准确地进行高质量的基因组组装,相较于其它测序技术有着明显的优势。在高重复基因组、大型复杂基因组、异源多倍体基因组甚至同源多倍体基因组组装中都能获得更高质量和连续性的基因组。
在变异检测领域,HiFi测序能够检测从单核苷酸到结构变异等所有类型的变异,包括一些基因组中十分难以检测的区域,如串联重复和高度重复序列区域。
在表观遗传学研究方面,HiFi测序能够在测序中直接获取碱基修饰信息(如甲基化)及传统的碱基识别数据,为研究人员在人类和其他生物的基因表达遗传性变化方面提供了新的可能性。
此外,由于甲基化数据与其他HiFi应用程序同时生成,研究人员可以在单倍型分区和变异调用的基因组上准确定位和研究表观遗传效应。
当然
,
该测序技术也存在一定缺点。
比如原始错误率较高,需要通过重复检测来提升准确性;
价格昂贵,测序成本高
;
以及测序读长及准确性受DNA聚合酶活性影响,而DNA聚合酶活性会受到检测激光的影响等等。
2024年2月,PacBio公布2023年财报。
2023年全年,PacBio的收入为2.006亿美元,比2022年的1.283亿美元增长了56%
。
2023年公司在产品营收从上年的1.087亿美元跃升69%,至1.839亿美元,服务和其他营收从1960万美元下降15%,至1660万美元。仪器收入为1.205亿美元,比2022年的4870万美元增长了一倍多;耗材收入为6340万美元,比前一年的6000万美元增长了6%。
其中,2023年第四季度产品收入总计5400万美元,比2022年第四季度的2280万美元增长了137%;服务和其他收入从460万美元下降了4%至440万美元;仪器收入总计3510万美元,比2022年第二季度的610万美元增长了五倍多,主要是由于Revio平台的持续采用;消耗品收入为1890万美元,比1670万美元增长了13%,创下了该公司的纪录。
PacBio在2023年的收入增长了 56%,之前三年的总收入增长了 154%,令人印象深刻,行业也对其未来三年的增长预期较高。此前PacBio还曾预测2024年全年收入将在2.3至2.5亿美元之间,比2023年2亿美元多点的收入增长15%至25%。
然而根据公司最新预测,预计2024年收入将在1.7亿美元至2亿美元之间。公司财报发布之后,当日股价下跌13.94%。
尽管试剂耗材业务增长,但毛利率腰斩至16%,增收不增利问题未解决。投资者对PacBio的成功持怀疑态度。
这同样也基于PacBio新的战略选择。此前,PacBio在长度长测序领域做的很好,发展目标也很明确,通过不断提升测序的通量、以此来降低长读的成本。通过发布Revio,Pacbio HiFi长读已经开始在大人群研究中发挥作用。
在长读长测序市场之外,PacBio也涉足短读市场。2021年7月,PacBio花费8亿美元并购Omniome