香港大学的科学家最近比较了长读长平台和短读长平台在测序和组装细菌基因组上的结果。他们确定,只有PacBio的长读长测序技术能够产生高度准确且完整的组装。这项结果发表在《Frontiers in Microbiology》上。
Pacific Biosciences第三代测序仪的出现,明显改进了基因组测序的读长,促进了完整基因组的组装。不过,目前还没有研究单独使用PacBio的数据来完整测序双染色体的细菌基因组,早期版本的测序试剂最多能够完成单染色体的细菌基因组测序。
在这项研究中,香港大学的研究团队将PacBio RS II测序系统与Illumina HiSeq 1500测序仪的性能进行了比较。他们对类鼻疽杆菌(Burkholderia pseudomallei)的基因组进行测序。这种细菌有两个大的环状染色体,GC含量高达68-69%,富含高度重复的区域。
测序结束后,研究人员尝试了混合和单独的组装。他们指出,单独使用Illumina数据产生了有200多个contig的基因组草图,表明这个平台对PCR扩增的依赖对于富含GC的基因组来说是有问题的。三种不同的短读长组装工具也无法改善结果。他们报告称,两种测序数据的混合组装也不大成功,产生了74个contig。
然而,单独使用PacBio的数据进行组装,却带来了迥然不同的结果。这种方法实现了双染色体的类鼻疽杆菌基因组的完整组装,而无需进一步的测序。研究人员认为,这证明了PacBio SMRT技术在细菌基因组测序中的作用,特别是那些众所周知的难测序基因组。
他们将组装的染色体contig与参考基因组比对,发现准确性高于99.9%。重要的是,此次组装还能准确鉴定出蛋白质编码区(CDS)的数量及其分布、四个核糖体操纵子、核心蛋白和毒力蛋白,以及MLST基因座。
相比之下,Illumina测序不能够分辨这些重复区域,因为它们的序列长度不够,无法跨越那些不同种类的重复区域。
研究人员也对项目成本进行了评估。他们表示,在使用Sanger测序或二代测序平台来完成细菌基因组的测序时,主要的成本和时间都是花在填补缺口的阶段。据估计,在使用二代测序平台时,大约95%的经费和时间都是用来完成细菌基因组的最后1%。
他们认为,PacBio的SMRT测序则不同。“尽管每个碱基的成本更高,但在de novo组装之后就不需要额外的手动工作,且重复区域和移动元件的完整组装也值回票价,”研究人员谈道。
原文标题
PacBio But Not Illumina Technology Can Achieve Fast, Accurate and Complete Closure of the High GC, Complex Burkholderia pseudomallei Two-Chromosome Genome