照例,回顾!
BLAST 知多少?
步入正题
Blat?没写错吧?对,没错!
比对结果太碎?有内含子和插入片段较的情况下,我们该怎么办呢?
BLAT 啊!
Blat,全称 The BLAST-Like Alignment Tool,可以称为"类BLAST 比对工具"。
BLAST比对有什么缺陷呢?
速度偏慢、结果难于处理、无法表示出包含 intron 的基因定位。BLAT就是在这种形势下应运而生了。
BLAT 可以进行40个碱基以上、95%的序列对之间的比对,所以有可能错过一些分歧程度较大的序列。
下载地址
http://www.soe.ucsc.edu/~kent
或者
http://hgdownload.soe.ucsc.edu/admin/exe/
说明文档地址
http://genome.ucsc.edu/goldenPath/help/blatSpec.html
BLAT 的主要特点
速度快,共线性输出结果简单易读。对大基因组的比对,BLAT无疑是首选。BLAT把相关的呈共线性的比对结果连接成为更大的 比对结果,从中也可以很容易的找到 exons 和 introns。因此,在相近物种的基因同源性分析和EST 分析中,BLAT得到了广泛的应用。
速度快,小一些的片段几乎是瞬间出结果;
可以提交长的大片段序列;
5种非常好的排序输出格式;
可以直连UCSC;
以基因组为参考可以对长片段进行对基因组进行比对,顺序输出;
安装与用法
BLAT 安装特别简单,这里就不再赘述!
blat database query output.psl
-t=type Database type, one of:
dna - (default) DNA sequence
prot - protein sequence
dnax - DNA sequence translated in six frames to protein
-q=type Query type, one of:
dna - DNA sequence
rna - RNA sequence
prot - protein sequence
dnax - DNA sequence translated in six frames to protein
rnax - DNA sequence translated in three frames to protein
-prot Synonymous with -t=prot -q=prot
所以我们不加任何参数的情况下就是比对核酸序列。
比如:
blat genome.seq cdna.seq out.psl
输出格式:
match mis-match repmatch N's Q-count Q-gap-bases T-gap-count T-gap-bases strand Q-name Q-size Q-start Q-end T-name T-size T-start T-end block count block sizes qStarts sStarts
第1~8列是通体的比对统计,包括精确比对碱基数、错配、query和subject上的gap个数与gap总长等;第9~17列是比对位置信息,包括比对方向、query和subject的名字、长度、比对起止位置;18~21列是显示每一个精确比对的block的信息,包括blocks数、每个block的长度和在query、subject上的位置。
注意
blat对block的定义是一个没有插入缺失的比对,任何插入或者缺失的碱基都会使一个block终止;
blat的结果在subject上允许存在很大的gap(大的插入区域、intron区域),所以同一个结果在query和subjects上覆盖的区域可能会相差很多,这一点与blast不同;
结果里面碱基位置的计算是从0开始的而不是1。
如何增加段序列比对的敏感性
1. 使用 -fine
2. 设置大的数值 repMatch (比如 -repMatch = 1000000)
3. 不要使用 .ooc file
4. 不要使用 -fastMap
5. 对序列避免使用 masking command-line
欢迎分享: