专栏名称: 生信百科

依托高校科研平台，面向生物信息科研工作者。生物信息学习资料；常见数据分析技巧、流程；公共数据库分享；科研思路分享；

基因组学---基因家族分析（一）

生信百科 · 公众号 · 医学 · 2017-07-17 10:00

正文

照例，先来回顾

基因组学---基因组拼接

基因组学---基因组的拼接实例

基因组学---原核基因预测基因组学---启动子预测

基因组学---GO注释

基因组大小和GC含量(一)

许多paper都是通过核心单拷贝基因构建的进化树，还有维恩图表示核心基因、特有基因，没做过的都觉得很神奇！这究竟是如何办到的？

来！一步一步来学习！

基因家族聚类

众所周知，一个物种基因组不止含有一个基因，原核生物、真核生物都是如此！并且每个物种每个基因可能不止有一个拷贝，也就是说我们需要根据相似性进行聚类才会知道这个物种究竟有多少基因家族。

所以呢，我们先要来看基因家族如何聚类。

今天我们先来看原核如何进行基因家族聚类。真核生物原理其实是一样的，由浅入深，搞起！

目前比对、聚类的软件有好多，如blast、mcl、muscle、clustalw。。。

兼顾到速度、准确度以及简便呢，PGAP（Pan-genomes analysis pipeline）

这个软件使用了blast 软件以及mcl 进行家族聚类。流程全自动化，特别方便。

PGAP 安装

安装包及软件请自行下载，安装包中的 PGAP.pl 程序请用百度网盘中的独立程序替代，此程序经过修改，对输入文件要求不严格，中间过程不会报错。

百度网盘：

http://pan.baidu.com/s/1c2jFHGs

使用命令：

perl  PGAP.pl -strains 1+2+3+4+5+6+7+8+9+10 -input  ./all_pep/  -output ./resulte5c5strain10 --cluster --pangenome --thread 10 --evalue 1e-5 -method GF

一共10个菌株，所有的蛋白序列放到了all.pep 里面，1.pep 2.pep 3.pep 4.pep 5.pep…..
输出文件夹：resulte5c5strain10
thread 线程10
E 值1e-5
聚类方法：GF

输出结果

1.Gene_Distribution_By_Conservation.txt
1.Orthologs_Cluster.txt
2.NewGene.Data.txt
2.PanGenome.Data.txt

输出文件1 为每个菌株与其他菌株共有的基因数目，第一列为菌株个数，后面每一列对应一个菌株。

输出文件2 为基因家族聚类结果，每一行为一个基金家族，每一列为一个菌株。

输出文件3 为随着菌株数目的增多，新基因增加的个数

输出文件4 为随着菌株数目的增多，泛基因数目增加的个数

请到「今天看啥」查看全文

推荐文章

drpei · 女性“易燃易爆”的这个阶段，对自己和家人都是挑战

3 天前

E药经理人 · 印度制药巨头凭啥冲进全球“TOP10”？专访瑞迪博士中国区沙伊斯•科玛

4 天前

学术经纬 · 斯坦福新研究：多吃膳食纤维，抗癌作用超乎想象！竟能直接“激活”抗癌基因

5 天前

丁香园 · 拿到主治证书，但是医院几年了都不聘，会不会过期？

4 天前

丁香园肿瘤时间 · 可切除食管腺癌，术前放化疗 vs 围术期化疗，你选哪个？

5 天前

阑夕 · 专注于一件事的执念，就是匠人的本分

8 年前

不正常人类研究中心 · 看到一对中学生在街上手牵手，不禁想起了中学时代的自己。

7 年前

子悠财记 · 攒钱，根本没用！

7 年前

解放军报 · 关注士官婚恋：找对象到底有多难？

7 年前

上海头条 · 太现实！上海人你的工资多少决定了你的过夏方式！月薪3000的扎心了......

7 年前