专栏名称: 生信媛

生信媛，从1人分享，到8人同行。坚持分享生信入门方法与课程，持续记录生信相关的分析pipeline, python和R在生物信息学中的利用。内容涵盖服务器使用、基因组转录组分析以及群体遗传。

希望组自主三代组装软件NextDenovo最新版本全球学术开源！

生信媛 · 公众号 · 生物 · 2019-10-18 16:12

正文

请到「今天看啥」查看全文

2019 年 10 月 18 日希望组面向全球释放三代测序数据高效纠错、组装软件 NextDenovo 最新版本 V2.0-beta.1 （ https://github.com/Nextomics/Next Denovo ），并免费开放用于学术和其他非商业用途。

本次希望组发布的最新版本 NextDenovo 是专为三代测序数据开发的纠错、组装软件，不但解决了现有三代测序数据组装工具资源占用大、运行时间长、组装质量不稳定的瓶颈，还实现了单 Contig 一条染色体和超大型基因组组装的突破，为利用三代数据组装基因组扫清了组装算法的障碍！

图 1 NextDenovo V2.0-beta.1 上线 Github

三代测序数据组装已经成为基因组 De novo 的主流方案，其中 Nanopore 的读长可达数百 kb 甚至超过 2Mb ，在解决染色体着丝粒 / 端粒区域、性染色体等基因组复杂区域，以及复杂基因组组装时，与 PacBio 相比具有更大的优势 [1] 。前不久，加州大学圣克鲁斯基因研究所等单位的研究人员正是利用 Nanopore 的 ultra-long reads 成功拼接出了首个人类 X 染色体基因组完成图序列 [2] 。

然而组装算法方面存在较多的瓶颈，使三代测序的优势不能完全发挥，现有三代测序数据组装软件如： Falcon [3] ， Canu[4] ， Miniasm[5] ， Wtdbg[6] 等存在以下几类问题：

1、部分软件不具备纠错功能；

2、纠错过程耗费大量时间和计算资源；

3、组装出的基因组准确度不够；

4、组装出的基因组大小与预估有偏差；

针对以上问题希望组胡江团队研发出专门用于三代测序数据纠错、组装的软件—— NextDenovo 。其包含 NextCorrect 和 NextGraph 两个模块，依次进行测序数据的高效纠错、组装，在极大减少计算资源和运行时间的情况下，仍然能够组装出高质量基因组。基于 NextDenovo ，希望组已经实现了小基因组物种近完成图和 >10Gb 基因组物种的组装工作。

高效纠错

NextDenovo 原始数据纠错模块可对 PacBio 和 Nanopore 的三代测序原始数据进行纠错。表 1 为 NextDenovo 与现有主流三代测序数据校正工具（ Canu 、 Falcon 和 Racon [7] ），对不同三代测序平台（ PacBio 和 Nanopore ）数据的纠错性能比较。 NextDenovo 能够在极大减少运行时间的情况下，达到甚至高于与其他软件的纠错精度。

注：测试数据为人20号染色体PacBio和Nanopore数据各100×，运行环境CentOS Linux release 7.4.1708 (Core)，128G内存，32线程（Intel(R) Xeon(R) Gold 6151 [email protected]），参数默认。

高效组装

NextDenovo 组装模块是基于 String graph 算法，利用纠错后的三代测序数据进行基因组高效组装。之前的评测结果表明利用相同的 Nanopore 数据， NextDenovo 在组装速度、结果连续性等指标均明显优于 Canu （图 2 ）。

高准确度

Nanopore 数据用 NextDenovo 组装的结果再结合 NextPolish 直接进行 2 轮或多轮二代数据 polish 后，平均碱基准确度能达到 99.99% 以上（关于 NextPolish 的详细评测结果见 https://github.com/Nextomics/NextPolish/blob/master/doc/TEST1.pdf

NextDenovo 组装案例

在实际项目应用中 NextDenovo 的表现非常抢眼，某禾本科植物 Plant1 基因组组装 Contig N50 高达 66.3Mb ，某同源多倍体植物 Plant2 的 Contig N50 也达到了 59.7Mb （表 2 ）。与参考基因组比对的共线性图几乎呈一条对角线（图 3 ）。 值得一提的是这两个物种基因组都含有大量的 重复序列 ，而NextDenovo的组装版本的邻接性要远高于其他版本。

单Contig一条染色体

利用 NextDenovo 软件对水稻 93-11 （ Oryza sativa L. 2n=24 ）的 273X 深度 ONT 测序数据进行组装。最终获得的水稻 93-11 基因组仅包含 18 条 Contigs ， Contig N50 高达 29.43Mb ！水稻 93-11 基因组的 12 对染色体中，至少有一半的单条染色体由单个 Contig 装出！ BUSCO 评估显示在该组装中可以找到约 98.1% 的完整基因元件，反映组装结果真实可靠。进行基因组单碱基错误率的统计，该组装基因组的单碱基准确率在 99.99% 以上。与其他组装策略相比，利用 Next 系列软件组装的水稻 93-11 基因组质量明显优于其他组装结果 [8] ！

超大型基因组

超大型基因组大量高重复区域和动辄 Tb 级别的数据量对组装算法是一个巨大挑战。 NextDenovo 能够很好的处理超大型基因组组装问题，对一个预估基因组 11.02Gb 的超大型基因组进行组装， NextDenovo 组装版本的基因组与预估大小非常接近约为 10.42Gb ， Contig N50 达 5.02 Mb ，明显优于常规基因组组装工具（表 3 ）。

希望组自成立以来致力于三代测序技术应用与服务，自 2017 年搭建 Oxford Nanopore 测序平台以来陆续开展 ONT Ultra-long 测序、低起始量建库测序等前沿技术研发工作，率先于 2017 年底推出 ONT Ultra-long 测序服务，目前已经完成近百个物种的 ONT Ultra-long 测序、组装工作。公司自主研发的基于 ONT 数据的系列组装、纠错算法软件 NextDenovo 、 NextPolish ，在运行效率、组装质量、适用范围方面均优于现有组装工具，实现了单 Contig 一条染色体和超大型基因组组装的突破。在分析服务方面与华为云合作，将纳米孔测序数据分析流程整合到云计算平台上，实现急速基因组组装与注释，为全球客户提供快速、高效的纳米孔长读长测序计算和存储服务。在三代测序服务领域，希望组技术顶尖，算法领先，服务全面，目前已完成了数百个三代测序科研项目，在 Nature genetics 、 Nature Communications 、 Molecular cell 、 Developmental Cell 等国际权威杂志合作发表多篇研究论文，累积影响因子超过 380 。

[1] 高胜寒 , 禹海英 , 吴双阳 , 等 . 复杂基因组测序技术研究进展 [J]. 遗传 , 2018, 40(11): 944-963.

[2]Miga K H, Koren S,Rhie A, etal. Telomere-to-telomere assembly of a complete human Xchromosome[J]. BioRxiv,2019: 735928.

[3]Chin C S, PelusoP, Sedlazeck F J, et al. Phased diploid genome assembly with single-moleculereal-time sequencing[J]. Nature methods, 2016, 13(12): 1050.

[4]Koren S, Walenz BP, Berlin K, et al. Canu: scalable and accurate long-read assembly via adaptivek-mer weighting and repeat separation[J]. Genome research, 2017, 27(5):722-736.

[5]Li H. Minimap andminiasm: fast mapping and de novo assembly for noisy long sequences[J].Bioinformatics, 2016, 32(14): 2103-2110.

[6]Ruan J, Li H.Fast and accurate long-read assembly with wtdbg2[J]. BioRxiv, 2019: 530972.

[7]Sanders A D,Falconer E, Hills M, et al. Single-cell template strand sequencing byStrand-seq enables the characterization of individual homologs[J]. Natureprotocols, 2017, 12(6): 1151.

[8]Zhang J, Chen L L, Xing F, et al. Extensive sequencedivergence between the reference genomes of two elite indica rice varietiesZhenshan 97 and Minghui 63[J]. Proceedings of the National Academy of Sciences,2016, 113(35): E5163-E5171.