专栏名称: 生信石头
记录和分享生信学习经验和数据处理技巧
目录
相关文章推荐
三联生活周刊  ·  裁员创伤,打工人不被看见的隐痛 ·  昨天  
新周刊  ·  中国省市GDP排行,前十又变了 ·  昨天  
三联生活周刊  ·  被隐秘侵害之后,一个女孩的陨落 ·  2 天前  
51好读  ›  专栏  ›  生信石头

进化树可视化?你一直做错,知道吗?

生信石头  · 公众号  ·  · 2024-10-30 19:29

正文

为什么会错?错在哪里?

时间有限,我们直接进入主题。首先我们大家都会用蛋白序列建树,对不对?现在最常用的也是 IQtree。一般呢,这些软件给出的都是无根树。尽管我们都知道无根树和有根树的区别就是有没有根,但可视化的时候,我们仍然会习惯性地使用有根树的方式来可视化无根树。为了方便,直接给大家看两张同一个基因树的图吧。

首先先上进化树构建软件出来的树,我们用 figtree 可视化,如下

毋庸置疑,我们已经按照有根树的模式来可视化,见最左边(实际上 newick 文本本身格式就是有根的,为了记录进化树信息,我们也没办法,默认用有根树文本记录无根树)。

同一个树,我们用无根树的模式来可视化

有趣的事情发生了。需要明确的是,无根树可视化的时候,真正体现 taxon,也就是上述每个蛋白之间的“距离”。 在没有明确外类群的情况下, 其实我们肉眼都清楚,根就在中间,整个树应该是分成两大个分支,左上和右下。

如果我们肉眼给他定根。再按照有根树的模式来可视化

那么效果就出来了。

这个时候问题来了,为什么肉眼定的就对了,你说对就对?你说不对就不对?

序列可能会骗人,但是结构不会骗人。所以呢:

  1. 如果是无根树,那么最好分析的使用就用无根树

  2. 如果你想用有根树来可视化,这样容易看和可视化,那么你最好就置根,选一个合适的

有什么好办法?

下一个问题就是,怎么置根才是正确的根,尤其是我们完全不清楚外类群或者几乎找不到外类群。方法有很多,但最常见的是 midpoint 算法。(我个人认为是因为这个算法实现起来非常简单,所以支持的软件也多)

比如,我们可以直接在 figtree 中直接用 midpoint







请到「今天看啥」查看全文