在上一篇推文中跟大家提到会更新软件的具体使用方法,我现在来还债。我会把一些可能会踩到的小坑和参数确定方式在文中介绍一下。PS:应该不会有比这个更具体,更完整的教程了,如果有,肯定也是我后续更新的,毕竟我代表官方:stuck_out_tongue_closed_eyes:(这是个emoji表情,钟爱颜文字!如果无法显示,我特意给你截图了)
适用群体
双亲+F1子代群体(
上次的推文中和Double-Cross搞反了,感谢评论区的小伙伴指出,见谅见谅
)
主要用到的还是二倍体树木类的群体比较多。子代群体的数量当然越多越好,
群体越大效果越好
,但是对于树木类群体构建比较困难,有个两三百个材料也够了。
测序数据要求
亲本和子代测序深度:双亲:50-100×
子代:1-5×
(当然不设上限)
「必须得有
染色体组装
级别的基因组,太碎的contig就不要用了,结果不好,我试过。。。」
使用流程
下载方式就不介绍了,github下或者docker run都可以,并不需要安装,直接调用里面的perl脚本就可。见
我们终于可以为自己开发的软件(OutcrossSeq)写教程了
PS: bioconda的安装方式目前也在准备中,等待下篇教程的通知吧~
数据准备
首先你的所有数据包括亲本都得在一个vcf文件里,GATK calling流程可以按自己的习惯来,我就不多说了。只要初始出来的vcf就行,我的程序里有子代的过滤流程,如果你用GATK硬过滤或者其他方式过滤后,再来运行软件,可能会报错,当然您觉得我的过滤标准不够严格,您可以直接删除某些低质量的markers,但是不要改动其它有效markers,这样是没有问题的。
「几个非常重要以至于你不看就可能会踩到然后开始自己瞎折腾,但是现在搜索也暂时找不到解决方法的小坑」
1.
材料名称注意不要使用一些特殊字符和用数字开头,因为后面会调用到R,数字开头或者有“-”符号,R语言会自动在数字前加上X,把“-”变成“.”。这样程序运行到后面必定会有错
(这些变动是R的默认行为,事实上是可以修改R代码进行设置的,后续会优化,但是建议大家取名字还是以字符串开头,如果单词之间需要分割,请只使用选择下划线)
2.
染色体的header不要太复杂,乱七八糟一堆符号,最好就是chr01这样就好,这种肯定不会有错
(对于">chr01 this is very good assembly result" 这种结果,就请改成">chr01" 吧,命名不规范,亲人两行泪)
3.
数据文件和软件代码放到一个文件夹下,软件包里我没有设定路径,放到一起比较保险,如果需要修改参数run第二遍的话,记得删除第一轮run的文件,或者直接再建一个新的目录
过滤低质量markers
暂时还没有弄成command模式,大家先这么将就着用吧
软件需要分染色体运行