专栏名称: 生信圈
关注生物医学大数据、以及数据分析方法在转化医学研究中的应用进展,讨论与生物信息相关的一切话题。
目录
相关文章推荐
闹闹每日星运  ·  周运 | 闹闹12星座周运势:0317~0323 ·  4 天前  
闹闹每日星运  ·  春风之后逆袭又转运的星座 ·  4 天前  
闹闹每日星运  ·  星历0318:狮子适合关注基础 射手注意收支平衡 ·  3 天前  
闹闹每日星运  ·  线上全熟线下不到三分熟的星座 ·  2 天前  
闹闹每日星运  ·  星历0317:金牛保持阳光心态 ... ·  4 天前  
51好读  ›  专栏  ›  生信圈

六步教会你基因组组装!

生信圈  · 公众号  ·  · 2017-11-16 21:00

正文


序列组装是宏基因组测序分析中的一个重要模块,也是较复杂的部分。不同于一般的基因组组装,其组装出来的是多个微生物基因组序列,这也增加了其复杂度。接下来两期我们将从基因组组装原理和操作方法两个部分为大家全面讲解这部分内容。

基因组组装一般有基于OLC(先重叠后扩展)和基于De Brujin图(DBG)两种组装算法,基于OLC的组装方法适合长序列组装,运行依赖的数据结构需要消耗大量的内存,且运行速度比较慢,错误率高,而DBG组装方法内存消耗相对较低,运算速度快,且准确率高,本期我们主要介绍基于DBG基因组组装算法的基本原理。

基于DBG的基因组组装方法一般分为以下六个步骤:


A.    序列k-mer化:对插入片段进行建库测序,下机reads经质控后,对clean reads进行k-mer化,即将reads 逐个碱基开始切分为长度为K的子串;

B.    构建de Brujin图:将上一步得到的所有长度为k的子串即k-mer作为de Brujin图的节点,根据相邻两个K-mer重叠k-1个碱基的原则将该两个顶点(k-mer)有方向的连接起来,构建de Brujin图,如下图所示:

C.    DBG简化:去掉无法继续连接和低覆盖度的分支,通常有如下几种情况:

1) 直接删除由于测序错误形成的低频K-mer;

2) 通过短序列将一些很短的重复解开;

3) 如果Kmer1和Kmer2有很高的相似性,将形成的泡状结构合并;

D.   解图获得一致性序列:在简化图的基础上,仍然会因有很多分叉位点无法确定真正的连接关系,因此接下来的每个分叉位点将序列截断,得到contigs;

E.    构建scaffold: 将质控后的reads比对回上一步得到的congtigs,利用reads之间的连接关系和插入片段大小信息,将contigs连接成scaffolds;

F.     Gap Close: 通过PE reads来填补scaffolds内部的Gap,经过Gap填补后,如果还有含N的Gap,则将该条scaffold在Gap处打断,并去掉N,形成最后的scaftigs;







请到「今天看啥」查看全文