专栏名称: 生信媛
生信媛,从1人分享,到8人同行。坚持分享生信入门方法与课程,持续记录生信相关的分析pipeline, python和R在生物信息学中的利用。内容涵盖服务器使用、基因组转录组分析以及群体遗传。
目录
相关文章推荐
51好读  ›  专栏  ›  生信媛

我们终于可以为自己开发的软件(OutcrossSeq)写教程了

生信媛  · 公众号  · 生物  · 2021-01-12 13:33

正文

请到「今天看啥」查看全文


OutcrossSeq主要是一个基于群体的低覆盖率数据,得到准确的基因型图谱,而后用于基因定位和育种选择。在此之前已经有很多的工具用于genotype和phasing,比如人类中常用的BEAGLE、PHASE、fastPHASE、MACH、 IMPUTE2、SEG-map等等。但是这些工具基本都适合覆盖率稍高或者有家系的群体材料,覆盖率低的话准确率会受影响。但是OutcrossSeq可以基于1x甚至以下的覆盖率,极大的降低了成本。并且OutcrossSeq最大的优点在于攻克了同源多倍体材料。

简介

用于OutcrossSeq主要包含三个模块"Diploid-Outcrossing","Double-Cross","Autopolyploid Plant"。三个模块适用于三种不同的群体。

  • "Diploid-Outcrossing":杂交F1群体-包含四个初始纯和亲本和F1的子代群体
  • "Double-Cross":双交种群体-包括两个杂合的亲本和F1的子代群体
  • "Autopolyploid Plant":同源六倍体群体-两个杂合六倍体亲本和F1的子代群体

其中第一个模块和第二个模块差不多,如果有初始的四个单倍型推荐使用第一种方式,准确率更高。但是对于很多果树类材料,构建一代的群体可能就需要几十年,有个F1群体就很难得了,所以其亲本基本是俩杂合材料,很难追溯上杂交生成俩杂合亲本的纯和材料,所以针对此情况,我们开发了第二套算法。

算法主要可以概括为四个大步骤 步骤1、对目标植物的亲本材料进行高覆盖测序,对目标植物的子代群体材料进行低覆盖测序,获得相应测序结果;步骤2:将亲子代群体测序获得的序列比对到目标植物的现有基因组上,并得到变异文件,所述变异文件中包含每个被测序材料测得的变异位点信息;步骤3:结合亲本材料的测序结果,对所有亲子代测序比对结果中的单核苷酸多态(SNP)位点进行筛选,将选出的SNP位点进行区段划分,并基于划分后各区段内基因片段的亲缘关系进行基因型分类;步骤4:对划分后的基因型进行单倍体类型统一和缺失基因型填充。


下载

本软件主要是由perl和R写的,但是其初始信息来源依赖于GATK生成的变异信息,为了使用方便,我们把所有的call variants的软件和perl使用过程的依赖模块和R都整合到一个docker镜像里。 「此处需要感谢姊如师姐,这部分是师姐帮忙完成的(没错,我就是那个求帮助的师妹)。如果大家想要了解、学习docker,可以参考一下两篇推文。生信猿的docker入门课1-2」 如果需要使用镜像,可以使用以下两种方式,docker或者singularity

docker run -it -v $PWD:/docker mjchenjojo/outcrossseq:v1.0
#$PWD 是运行文件夹的路径,也就是你的数据所在地

singularity pull docker://mjchenjojo/outcrossseq:v1.0

也可以从github或者我们实验室的官网上下载软件包使用。xhhuanglab链接

git clone https://github.com/xhhuanglab/OutcrossSeq.git

「这次先简单的说什么多,下一篇推文给大家介绍一下具体使用方式。欢迎大家下载使用我们的软件,有任何问题欢迎在github上留言,或者邮件私信,我会做好一百分的售后服务工作,在大家的提问中学习进步,尽快出一个功能更强大,使用范围更广,操作更简单的OutcrossSeq-2.0.」

如果大家需要专门的讨论群的话,可以在留言区反馈下。

推荐阅读

生信猿的Docker入门课1

生信猿的docker入门课2











请到「今天看啥」查看全文