之前讲了多序列比对 的分析步骤,简单描述了软件 mafft 的安装和使用方法。
由于同源序列随时间的演化,基因的某些位点特别是密码子第2位和3位,会发生分化。而密码子具有简并性,即多个密码子对应同一个氨基酸,这样,基于蛋白质序列的多序列比对会更准确一些,并且不会在 MSA 中引入移码突变(frame shifts)。所以我们常用氨基酸序列进行多序列比对。
而一些分析,如 kaks 分析,用更精确的模型构建系统发育树,则需要用到核苷酸水平的 MSA。
这里推荐使用的软件是 pal2nal(http://www.bork.embl-heidelberg.de/pal2nal/),可以将蛋白质水平的 MSA 转换成核苷酸水平的 MSA。
要求输入的文件:
蛋白质序列的 MSA
蛋白质序列对应的 cds 序列(即 cds 序列的长度是蛋白质序列的 3 倍,且两者的 id 号要一致)
pal2nal 的下载与安装
wget http://www.bork.embl-heidelberg.de/pal2nal/distribution/pal2nal.v14.tar.gz tar -zxvf pal2nal.v14.tar.gz export PATH=$PATH:'/home/liuhui/bin/pal2nal.v14'
|
运行