专栏名称: 生信百科
依托高校科研平台,面向生物信息科研工作者。生物信息学习资料;常见数据分析技巧、流程;公共数据库分享;科研思路分享;
目录
51好读  ›  专栏  ›  生信百科

基因组学---基因家族分析(一)

生信百科  · 公众号  · 医学  · 2017-07-17 10:00

正文

照例,先来回顾


基因组学---基因组拼接

基因组学---基因组的拼接实例

基因组学---原核基因预测基因组学---启动子预测

基因组学---GO注释

基因组大小和GC含量(一)


许多paper都是通过核心单拷贝基因构建的进化树,还有维恩图表示核心基因、特有基因,没做过的都觉得很神奇!这究竟是如何办到的?


来!一步一步来学习!


基因家族聚类

众所周知,一个物种基因组不止含有一个基因,原核生物、真核生物都是如此!并且每个物种每个基因可能不止有一个拷贝,也就是说我们需要根据相似性进行聚类才会知道这个物种究竟有多少基因家族。



所以呢,我们先要来看基因家族如何聚类。


今天我们先来看原核如何进行基因家族聚类。真核生物原理其实是一样的,由浅入深,搞起!


目前比对、聚类的软件有好多,如blast、mcl、muscle、clustalw。。。

兼顾到速度、准确度以及简便呢,PGAP(Pan-genomes analysis pipeline)


这个软件使用了blast 软件以及mcl 进行家族聚类。流程全自动化,特别方便。



PGAP 安装


安装包及软件请自行下载,安装包中的 PGAP.pl  程序请用百度网盘中的独立程序替代,此程序经过修改,对输入文件要求不严格,中间过程不会报错。


百度网盘:

http://pan.baidu.com/s/1c2jFHGs


使用命令:


perl  PGAP.pl -strains 1+2+3+4+5+6+7+8+9+10 -input  ./all_pep/  -output ./resulte5c5strain10 --cluster --pangenome --thread 10 --evalue 1e-5 -method GF


  1. 一共10个菌株,所有的蛋白序列放到了all.pep 里面,1.pep  2.pep  3.pep  4.pep 5.pep…..

  2. 输出文件夹:resulte5c5strain10

  3. thread 线程10

  4. E 值1e-5

  5. 聚类方法:GF


输出结果


  1. 1.Gene_Distribution_By_Conservation.txt

  2. 1.Orthologs_Cluster.txt

  3. 2.NewGene.Data.txt

  4. 2.PanGenome.Data.txt

输出文件1 为每个菌株与其他菌株共有的基因数目,第一列为菌株个数,后面每一列对应一个菌株。


输出文件2 为基因家族聚类结果,每一行为一个基金家族,每一列为一个菌株。


输出文件3 为随着菌株数目的增多,新基因增加的个数   


输出文件4 为随着菌株数目的增多,泛基因数目增加的个数





请到「今天看啥」查看全文