在一些高分文章中经常会看到Logo图,看着非常赏心悦目,如下图:
(Science,2009)
(PLoS Genet,2014)
那么类似这样的Logo图该怎么绘制呢?
首先,将目标序列进行多序列比对,这里使用MEGA的Alinment功能,方法选内置的Align by ClustalW,如下图。
“对齐”后,将首尾两端“裁齐”,为了方便展示这里把序列裁剪得很短,仅使用序列前段的四十多个氨基酸。裁剪方法:框选不要的序列部分,按Delete键即可。然后将裁剪后的序列导出为fasta格式,方法见下图。
保存为fasta格式后的序列用记事本打开是这样子的:
绘制方法有很多,这里介绍一个在线工具:WebLogo (http://weblogo.berkeley.edu/),目前有两个版本,如下图,最新版本是3.6。
使用方法很简单,和几乎所有的在线工具一样(以2.8的版本为例),通过
选择文件
或 直接粘贴的方法上传序列,如下图。
图片的格式可选svg、PDF等矢量格式,这里用PNG格式,dpi选默认的 96(因为我这里用仅用于网络传播),图片的尺寸默认即可。
所需要注意的是序列显示范围的设置,默认是显示所有序列的字母,如需要仅显示其中的一小段,可设置显示字母范围(如下图洋红色虚线框所示),红色线框所示的是设置横轴的起始数字。
另外,字母的颜色也可以自定义,如下图。
绘制效果见下图:
如果想绘制以百分比为单位的Logo图,可用3.6版本(2.8 版本的y轴显示貌似有问题),所用方法大同小异,单位选
probability
即可,颜色可自定义,如下图。
绘制的效果如下:
序列logo图由TomSchneider 和Mike Stephens发明,用来分析和展示序列模式的保守性。
图中的每个字母的高度与该位置的相应碱基或氨基酸残基的出现频率成正比,常以bits为单位。每个位置的字母按照保守性从大到小排列,可以方便的从顶端的字母识别保守序列,例如下图(B)CAP的保守序列是“AA-TGTGA------ TCACA-TT”。
(GenomeResearch,2004)
纵坐标的单位常见有两种,一种是百分比,另一种是bits。前一种好理解,每个字母的出现频率;对于后一种,可参考下面的公式: