专栏名称: 生信人
共同学习生物信息学知识,共同探究生物奥秘。
目录
相关文章推荐
BioArt  ·  ​Nat ... ·  23 小时前  
BioArt  ·  Cell Metab | ... ·  昨天  
新郑发布  ·  再萌也不要碰!国家卫健委紧急提醒→ ·  3 天前  
新郑发布  ·  再萌也不要碰!国家卫健委紧急提醒→ ·  3 天前  
51好读  ›  专栏  ›  生信人

进化树作图专题:Newick的前世今生

生信人  · 公众号  · 生物  · 2018-02-07 09:55

正文

大家好!我是新加盟生信人团队的小编montreal,和前几位小编遥相呼应,目前在大洋彼岸的美洲大陆最具法兰西风情的Q省Q市Q大学攻读博士学位。相信很多朋友在研究中都遇到过有关进化树作图的问题。从本期开始,我将为大家带来 进化树作图 系列专题,希望能对有着不同专业背景的读者在进化树作图(请注意不是建树)方面有所帮助。


想必大家都知道Newick格式是目前进化树做常用到的一种格式了。比如,对于下面这棵树:


小编作图,欢迎转载或修改

用Newick格式来表示,就是:(A,(B,(C,D)))。很简洁吧?目前,作为最常使用的进化树格式,Newick在各种作图软件中得到了广泛应用。本文将首先回溯历史,带你了解Newick的前世今生。


时光回转三十年。1986年6月26日,美国新罕布什尔州(New Hampshire)多佛市(Dover)的一家龙虾馆里,七位科学家一边吃着龙虾,一边进行着轻松的学术讨论。对于这次会议,能找到的资料极为有限,但其结果却对整个系统发育学(phylogenetics)产生了重要的影响。因为正是在这次会议中诞生了一种全新的、用字符与括号来对进化树进行描述的格式。这次在新罕布什尔的会议实际上由一系列非正式的讨论构成,而最后一次讨论(还有第二次讨论)正是在一家名为Newick’s Lobster House的龙虾馆举行,也许是龙虾鲜美令人难以忘怀的缘故,大家决定用Newick龙虾馆来命名这种格式(学界也称之为New Hampshire format)[1]。

Adapted from Google Map. Terms of use: https://www.google.com/intl/en_hk/help/terms_maps.html

BTW;这家建于1948年的龙虾馆至今仍在营业。听去过的人说味道确实不错,推荐fried oysters和Gulf shrimp,大家有兴趣可以去尝下鲜,地址:Address: 431 Dover Point Road, Dover, NH 03820。


从此,Newick从新罕布什尔的龙虾馆慢慢走入世界各大学的图书馆,尽管从未在正式文献中被专门论述过 [1] 。七位与会嘉宾都是当时分子进化和计算机学界的翘楚,让我们看看他们都是谁:James Archie, William Day, Joe Felsenstein,Wayne Maddison, Christopher Meacham, F. James Rohlf, David Swofford [1] 。没听说过?没关系,其中的几位在下文和本系列专题后续的文章中还会多次出现。多说一句,本次会议的发起人 [1] 、著名分子进化学家,时任华大西雅图(University of Washington, Seattle)遗传系教授的Joseph Felsenstein还有一位亲弟弟,Lee Felsenstein,是一位知名的电子工程师,对于PC的早期发展有巨大贡献 [2] ,大家不要搞混。


针对Newick格式,需要注意的是不同的树会有多种的Newick格式对应 [1]。让我再回到本文开始的例子:

小编作图,欢迎转载或修改

以下三种方式:(A,(B,(C,D))),(A,(B,(D,C))),(A,((C,D),B)),都可以表示这棵树。此外,实际应用中很多的树是无法定根的(rooted)。这里所谓的“根”就是祖先,不能定根也就是我们无法知晓祖先在哪(如图所示,1、2还是3)。用Newick来表示的时候,一般的原则是人为地定一个根。还是上面这棵树,如果对于一棵不定根的树(unrooted tree),那么(A,(B,(C,D))),((C,D),(B,A))和(D,(C,(B,A)))表示的都是同一棵不定根树(unrooted tree)[1]。


Newick的独角戏唱了一年,就迎来了竞争对手Nexus,一种包含有多种信息并以模块化存储的新格式。与Newick不同,Nexus有一篇在正式期刊发表的文章,专门介绍这种格式。这篇文章于1997年刊载在分子进化和系统分类学(systematics)顶级期刊 Systematic Biology 上,尽管此前Nexus已在多种软件中(比如MacClade 3和PAUP 3)被使用[3] 。

作者的名字眼熟吗?对,其中的 David Swofford Wayne Maddison ,正是当年新罕布什尔 龙虾七子 中的两位。不过为什么排在第一位的也叫 Maddison ?莫非?


你没有猜错,这两个Maddison是亲兄弟,而且还是双胞胎!至于哪个是哥哥,哪个是弟弟,有了解的读者欢迎在后面留言,反正我是分不出,请见下图:

Copyright: Wayne Maddison Lab, CC 3.0

BTW:Maddison兄弟之前都在亚利桑那大学(University of Arizona)做老师,其间经常被人搞混,甚至自己的学生也无法分辨。时常有人向哥哥咨询一件事,几天后却向弟弟询问结果,搞得对方一头雾水。后来也许是大家实在受不了,Wayne Maddison遂改换门庭,去往加拿大的英属哥伦比亚大学(University of British Columbia)任教。

作者在文中明确指出了发明 Nexus 格式旨在提供一种具有延展性( expandability ),包容性( inclusivity ),可移植性( portability ),以及可操作性( processibility )的格式。而这些特性的实现,最重要的就是 Nexus 模块( modularity )的设计。让我们看一个示例:

小编作图,欢迎转载或修改

这里面的内容确实不少。不过请注意, Nexus对于树的描述(或者说tree block),实际上和Newick如出一辙 ,所以严格地说,在描述进化树方面,它没有任何创新,只是照搬Newick格式。


有趣的是,上面提及的这几位在进化树格式发展史中具有里程碑意义的人物——Newick龙虾馆会议的组织者Joseph Felsenstein,Nexus格式的发明者David Swofford和Maddison兄弟——分别摘取了第二、第一和第五第六届系统分类学家(systematic biologist)主席终身成就奖(Presidents' Award for Lifetime Achievement)[4]。该奖由系统分类学家协会(Society for Systematic Biologists)每隔三年或以上颁发一次,迄今只有六位得主,堪称系统分类学界最高荣誉[4]。当然,这绝不仅是对于Newick和Nexus的嘉奖。几位科学家的贡献还有很多,比如三个著名的进化软件:Phylip、PAUP和Mesquite,也正分别出自他们之手。


Nexus虽然与Newick同出一源,却由于其更加丰富的内容和复杂的模块化结构,使得很多软件中两者不能兼容:前者有PAUP,Mesquite和MrBayes这样的拥趸,而后者也得到了Phylip,MEGA以及RAxML等软件的青睐。时至今日,如果把两种格式的名字同时输入谷歌搜索框,得到的几乎都是“How to convert nexus files to Newick format?”之类的提问。


Newick和Nexus的二人转在2009年终于迎来了搅局者,它就是phyloXML,一种基于XML并整合了树和其他相关数据的新格式。在phyloXML里,不同的属性用 的方式描述,而XML良好的扩展性也使得phyloXML有着更灵活的设计方式[5]。可以说,这种格式是同Newick有着鲜明区别的、也是真正意义上的一种新的进化树格式。该文作者,美国桑福德-伯纳姆医学研究所(Sanford-Burnham Medical Research Institute)的剥尸猴Christian Zmasek和来自印第安纳大学布鲁明顿分校(Indiana University, Bloomington)的Mira Han,在文中强调,生物学的飞速发展和研究的日益深入使得人们有必要将包括物种、基因名、枝长(branch length)、甚至是成种事件(speciation)等广泛信息整合到进化树中,并以一种全新的格式呈现出来。于是二人一道开发了phyloXML。下图(左)展示了一个包含有多种信息的phyloXML文件。下图(右)则是基于phyloXML的一棵包含物种信息和蛋白质结构域信息的树。

小编作图,欢迎随意转载或修改


phyloXML近年来不断完善,现已被包括iTOL在内的许多作图工具所采用,并得到了BioPerl和BioPython的支持,有着越来越广泛的使用群体,与Newick和Nexus渐成三足鼎立之势。有兴趣的读者可以前往phyloXML的大本营 http://www.phyloxml.org ———看看关于phyloXML更多的内容。


除了上述三种进化树格式之外,还有其他的一些“小众”群体。由于篇幅所限不再一一介绍。本期内容至此介绍完毕,有问题的朋友欢迎在下方留言。预知后续内容,请锁定生信人公众号。


参考资料

http://evolution.genetics.washington.edu/phylip/newicktree.html

https://en.wikipedia.org/wiki/Lee_Felsenstein

Maddison, D. R., Swofford, D. L. and Maddison, W. P. (1997), Nexus: An extensible file format for systematic information. Syst. Biol. , 46:590–621.

http://www.systbio.org/presidents-award.html

Han M.V. and Zmasek C.M. (2009) phyloXML: XML for evolutionary biology and comparative genomics. BMC Bioinformatics , 10:356.



点击以下「 关键词 」,查看往期内容:

一个物种一个家

TCGA | 小工具 | 数据库 | 组装 | 注释 | 基因家族 |







请到「今天看啥」查看全文