专栏名称: 生信百科
依托高校科研平台,面向生物信息科研工作者。生物信息学习资料;常见数据分析技巧、流程;公共数据库分享;科研思路分享;
目录
相关文章推荐
转化医学网  ·  【Nature子刊】仁济医院朱鹤团队:揭秘载 ... ·  4 天前  
新青年麻醉论坛  ·  气体分压与氧合-从生理到临床 ·  5 天前  
医学影像沙龙  ·  记住!放射科的每个摆位,都有他特殊的意义! ·  4 天前  
51好读  ›  专栏  ›  生信百科

BLAT比对(完美解决scaffold顺序问题)

生信百科  · 公众号  · 医学  · 2017-07-24 09:27

正文

照例,回顾!


BLAST 知多少?


步入正题



Blat?没写错吧?对,没错!


比对结果太碎?有内含子和插入片段较的情况下,我们该怎么办呢?


BLAT 啊!


Blat,全称 The BLAST-Like Alignment Tool,可以称为"类BLAST 比对工具"。


BLAST比对有什么缺陷呢?

速度偏慢、结果难于处理、无法表示出包含 intron 的基因定位。BLAT就是在这种形势下应运而生了。

BLAT 可以进行40个碱基以上、95%的序列对之间的比对,所以有可能错过一些分歧程度较大的序列。



下载地址


http://www.soe.ucsc.edu/~kent


或者


http://hgdownload.soe.ucsc.edu/admin/exe/ 


说明文档地址


http://genome.ucsc.edu/goldenPath/help/blatSpec.html

BLAT 的主要特点


速度快,共线性输出结果简单易读。对大基因组的比对,BLAT无疑是首选。BLAT把相关的呈共线性的比对结果连接成为更大的 比对结果,从中也可以很容易的找到 exons 和 introns。因此,在相近物种的基因同源性分析和EST 分析中,BLAT得到了广泛的应用。


  1. 速度快,小一些的片段几乎是瞬间出结果;

  2. 可以提交长的大片段序列;

  3. 5种非常好的排序输出格式;

  4. 可以直连UCSC;

  5. 以基因组为参考可以对长片段进行对基因组进行比对,顺序输出;


安装与用法

BLAT 安装特别简单,这里就不再赘述!


blat  database query output.psl

-t=type                Database type, one of:
                          dna - (default) DNA sequence
                          prot - protein sequence
                          dnax - DNA sequence translated in six frames to protein

-q=type                Query type, one of:
                          dna - DNA sequence
                          rna - RNA sequence
                          prot - protein sequence
                          dnax - DNA sequence translated in six frames to protein
                          rnax - DNA sequence translated in three frames to protein

-prot                  Synonymous with -t=prot -q=prot


所以我们不加任何参数的情况下就是比对核酸序列。



比如:


blat genome.seq  cdna.seq  out.psl


输出格式:


match  mis-match repmatch N's Q-count Q-gap-bases T-gap-count T-gap-bases  strand Q-name Q-size Q-start Q-end T-name T-size T-start T-end block count block sizes qStarts sStarts

第1~8列是通体的比对统计,包括精确比对碱基数、错配、query和subject上的gap个数与gap总长等;第9~17列是比对位置信息,包括比对方向、query和subject的名字、长度、比对起止位置;18~21列是显示每一个精确比对的block的信息,包括blocks数、每个block的长度和在query、subject上的位置。

注意


  1. blat对block的定义是一个没有插入缺失的比对,任何插入或者缺失的碱基都会使一个block终止;

  2. blat的结果在subject上允许存在很大的gap(大的插入区域、intron区域),所以同一个结果在query和subjects上覆盖的区域可能会相差很多,这一点与blast不同;

  3. 结果里面碱基位置的计算是从0开始的而不是1。


如何增加段序列比对的敏感性


1. 使用 -fine

2. 设置大的数值 repMatch (比如 -repMatch = 1000000)

3. 不要使用 .ooc file

4. 不要使用 -fastMap

5. 对序列避免使用 masking command-line




欢迎分享: