专栏名称: 生信媛
生信媛,从1人分享,到8人同行。坚持分享生信入门方法与课程,持续记录生信相关的分析pipeline, python和R在生物信息学中的利用。内容涵盖服务器使用、基因组转录组分析以及群体遗传。
目录
相关文章推荐
51好读  ›  专栏  ›  生信媛

仅仅对感兴趣的基因call variation

生信媛  · 公众号  · 生物  · 2017-10-26 23:20

正文

一篇友军 生信技能树 的幕后BOSSJimmy的投稿,学会samtools的新技巧: samtools mpileup


需求来源


有这个需求,是因为我们经常对某些细胞系进行有针对性的设计变异,比如BAF155的R1064K呀,H3F3A的K27呀,那我我们拿到高通量测序数据的时候,就肯定希望可以快速的看看这个基因是否被突变成功了。


现在比对几乎不耗费什么时间了,但是得到的sam要sort的时候还是蛮耗费时间的,更耗费时间的就是全基因组时间的GATK流程了。假设,我们已经得到了所有样本的sort好的bam文件,想看看自己设计的基因突变是否成功了, 可以有针对性的只call 某个基因的突变


比如韩国人的基因组数据比对文件如下:

接近60G的数据,可以很简单的代码直接指定对某个基因进行找变异,代码如下:

grep H3F3A ~/reference/gtf/gencode/protein_coding.hg19.position


samtools mpileup -r chr1:
226249552-226259702  \
 -ugf ~
/reference/genome/hg19/hg19.fa *sorted.bam \
| bcftools call -vmO z -o H3F3A.vcf.gz







请到「今天看啥」查看全文