专栏名称: 生信人
共同学习生物信息学知识,共同探究生物奥秘。
目录
相关文章推荐
生物学霸  ·  比亚迪集团,捐赠 985 ·  3 天前  
BioArt  ·  ​专家点评Nature | ... ·  5 天前  
BioArt  ·  会议预告 | SMART ... ·  1 周前  
生物制品圈  ·  信达生物IL-23单抗上市申请获CDE受理 ·  1 周前  
51好读  ›  专栏  ›  生信人

宏基因组分析时去除嵌合体没有usearch 64-bit怎么破

生信人  · 公众号  · 生物  · 2017-06-02 09:21

正文

在做细菌16S的高通量数据处理时你不得不面对去除嵌合体这玩意,嵌合体是什么鬼,百度一下就知道了,在序列扩增时多数序列是顺着单条序列前进的,如Read1扩增产生新的Read1Read2扩增产生新的Read2。但有时两条序列也可能缠在一起,扩增时产生的新序列前半段可能属于Read1,后半段属于Read2,形成了拥有两条序列信息的嵌合体序列,如下图:

紧接着你该谷歌一下如何去除嵌合体了,扫一扫文献发现大家都在用usearch,這个usearch在序列搜索、聚类、去重、去嵌合体等序列操作有非常重要的作用。它由Robert Edgar开发,目前已有大量的论文使用,同时很多公司的宏基因组流程中也在使用這个软件,去官网看看发现了一个恐怖的消息:

64-bit竟然要收费,还好32-bit可以免费下载,速度下载完32-bit,在centos安装一下,oh,NO! 不需要安装,直接可用,chmod 修改一下权限即可。

按照教程跑一下发现一直没有结果,几个意思。。。。。。

作为“资深程序猿”应该敏感的发现可能是哪里除了问题,果断打开日志,原来是内存溢出,噢,怪不得,刚开始就感觉32-bit怪怪的,32位支持的最大内存数不超过4GB,面对数据量稍微大一点的就坑爹了,怎么破,这玩意还挺好用的,想想要不买一个得了,查价格去:


看了一眼价格,默默的去问谷歌有没有其他替代工具,皇天不负有心人,找到了一个跟usearch很像的工具vusearch,仔细瞅了瞅,还真挺像的,连名字都只差一个字母,安装标准教程安装一下试试(系统是centos 6.7 tips-给代码不告诉系统环境的都是耍流氓):

wget https://github.com/torognes/vsearch/archive/v2.4.3.tar.gz
tar xzf v2.4.3.tar.gz
cd vsearch-2.4.3
./autogen.sh#出现了几个问题,看后面
./configure
make
make install  # as root or sudo make install

安装过程出现了几个问题,不过好在有谷歌,就解决了

问题1:

./autogen.sh: line 2: autoreconf: command not found

解决办法:

yum install autoconf

问题2:

Can't exec "aclocal": 没有那个文件或目录 at /usr/share/autoconf/Autom4te/FileUtils.pm line 326.

解决办法:

yum install dh-autoreconf

以上就完成了安装了

使用的话,还没太仔细研究,反正按照官网教程跑了一下,结果还不错。

根据vsearch官方文档来看,它采用的是矢量化的搜索方式,熟悉R或者Matlab的读者可能会比较熟悉这种向量化操作,核心算法为SIMD,辅之以多线程,得以实施高精度高效率的序列比对操作。得益于此,vsearch可以获得比usearch更好的比对效果,特别是针对分区段的比对情况。

安利一个简单的运行命令:

./vsearch --usearch_global queries.fsa --db database.fsa --id 0.9 --alnout alnout.txt

例子中,vsearch从文件database.fsa中以90%的相似性搜索目标序列,并输出到文本文件alnout.txt。与usearch是完全一样的!


欢迎关注生信人