众所周知,同源性是预测基因和蛋白质功能的主要线索,而序列同源性的判断则离不开两个或多个序列之间相似性的检测。一般来说,序列间的相似度越高,它们是同源序列的可能性就越高。
其中,序列比对无疑是评估序列相似性的最简单方法。显然,Blast就是序列比对检测的中坚力量。Blast自1990年首次亮相以来,凭借从各大数据库(EST、PDB数据库等)获取信息的能力,迅速成为序列比对界的领头羊。
老实说,Blast的界面非常友好,点击相应模块后,大家只需在序列框中丢上自己的靶序列,勾选好物种基因组,点击搜索即可!
可看着结果界面涌现出的几十个、数百个甚至数千个候选匹配序列,不少选择困难症的童鞋表示头疼不已:结果辣么多,究竟哪个才是最优解?本文以NM_001206932为例,分解BLAST结果页面,让大家迅速摆脱Blast新手身份。
首先会看到一个表头,即本次比对的基本信息,如比对类型、序列长度、所选的数据库等等。如果所选的数据库不合适,请及时迷途知返哦。
接下来就是Blast的结果显示图(Graphic Summary):颜色比例尺,其中相似度从高到低排列分别为:红、紫、绿、蓝、黑,红色区域越多则表示有较好的比对结果。
而在Blast结果的描述区域,两个衡量标准最为重要:Max Score和E值(E value),前者匹配片段越长,相似性越高则Score值越大;后者是得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低。
而点击相应注释名称,又或者在结果显示图(Graphic Summary)中点击对应的线条,均可以查看比对结果的详细信息。
其中,Expect(E值)、Identities(一致性)、Gaps(缺失或插入)三项是评价blast结果的标准。E值接近零或者为零时,具体上就是完全匹配了;一致性:匹配上的碱基数占总序列长的百分数。
如此,就可对Blast结果做到了如指掌,然而有些急性子的科研者却对Blast的运行速度有些瞧不上眼,因而又挖掘出了序列比对的新神器Blat,不仅让序列比对速度翻倍增长,而且其共线性输出结果更加简单易读。详情请查看文章《
Blast太慢?可以试试Blat
》。
功能:多序列比对相似性展示
网址:http://cotton.hzau.edu.cn/EN/tools/BioERCP/simitrix.php
功能:运行速度比较快的多序列比对
网址:http://www.ebi.ac.uk/Tools/msa/muscle/#