照例,先来回顾
基因组学---基因组拼接
基因组学---基因组的拼接实例
基因组学---原核基因预测基因组学---启动子预测
基因组学---GO注释
基因组大小和GC含量(一)
许多paper都是通过核心单拷贝基因构建的进化树,还有维恩图表示核心基因、特有基因,没做过的都觉得很神奇!这究竟是如何办到的?
来!一步一步来学习!
基因家族聚类
众所周知,一个物种基因组不止含有一个基因,原核生物、真核生物都是如此!并且每个物种每个基因可能不止有一个拷贝,也就是说我们需要根据相似性进行聚类才会知道这个物种究竟有多少基因家族。
所以呢,我们先要来看基因家族如何聚类。
今天我们先来看原核如何进行基因家族聚类。真核生物原理其实是一样的,由浅入深,搞起!
目前比对、聚类的软件有好多,如blast、mcl、muscle、clustalw。。。
兼顾到速度、准确度以及简便呢,PGAP(Pan-genomes analysis pipeline)
这个软件使用了blast 软件以及mcl 进行家族聚类。流程全自动化,特别方便。
PGAP 安装
安装包及软件请自行下载,安装包中的 PGAP.pl 程序请用百度网盘中的独立程序替代,此程序经过修改,对输入文件要求不严格,中间过程不会报错。
百度网盘:
http://pan.baidu.com/s/1c2jFHGs
使用命令:
perl PGAP.pl -strains 1+2+3+4+5+6+7+8+9+10 -input ./all_pep/ -output ./resulte5c5strain10 --cluster --pangenome --thread 10 --evalue 1e-5 -method GF
一共10个菌株,所有的蛋白序列放到了all.pep 里面,1.pep 2.pep 3.pep 4.pep 5.pep…..
输出文件夹:resulte5c5strain10
thread 线程10
E 值1e-5
聚类方法:GF
输出结果
1.Gene_Distribution_By_Conservation.txt
1.Orthologs_Cluster.txt
2.NewGene.Data.txt
2.PanGenome.Data.txt
输出文件1 为每个菌株与其他菌株共有的基因数目,第一列为菌株个数,后面每一列对应一个菌株。
输出文件2 为基因家族聚类结果,每一行为一个基金家族,每一列为一个菌株。
输出文件3 为随着菌株数目的增多,新基因增加的个数
输出文件4 为随着菌株数目的增多,泛基因数目增加的个数