在临床应用全外显子检测遗传病时,首先要看一下质控,待测的基因是否捕获到?有多少区域大于10X? 很多时候基因检测机构并不提供这么具体的信息,可能会笼统的说XX%覆盖,平均深度是XXX,平均深度对于具体的基因并没有实际意义,另外在科研全外显子测序时,销售可能会说10G数据量,平均100X测序深度,实际结果到底是真是假很难说? 如果我们自己学会分析就可以亲自检验啦。
当初小编也是摸索了很长时间才get这个技能,在这里分享自己的代码供需要的朋友参考。
java -Xmx30g -jar /yourGATKFILE/GenomeAnalysisTK.jar-T DepthOfCoverage -R /reference_genome_dir/ucsc.hg19.fasta -o result_name -Ibam.list -L target.bed --omitDepthOutputAtEachBase --omitIntervalStatistics -ct1 -ct 10 -ct 20
稍微解释一下,算法是GATK 的DepthOfCoverage,-R需要输入你的reference genome,bam.list为待分析的样本,可将多个bam放在一个bam.list里,-L 需要提供捕获的区域,为bed格式,如果是agilent的全外显子可在其官方网站下载,-ct1代表至少覆盖1X的区域,-ct10代表至少覆盖10X的区域,你可以自己添加自己想要的深度。
我们以上海某知名测序公司的agilent v5外显子捕获测序为例,总数据量为8G左右,结果如下:
sample_id | total | mean | %above_1 | %above_10 | %above_20 |
WGC046119U | 6734793499 | 133.65 | 99.8 | 99.2 | 98 |
WGC046118U | 5966777557 | 118.41 | 99.9 | 99.2 | 97.6 |
WGC046101U | 7129530413 | 141.49 | 99.8 | 99.3 | 98.2 |
WGC046100U | 6618615369 | 131.35 | 99.9 | 99.4 | 98.1 |
一共4个样本,total代表在捕获区域的总的碱基数,也就是ontarget碱基数,如果我们除以总的测序总量就会得到捕获效率大概为60%左右,也就是40%的数据都是无效的,当然这样的捕获效率在业界算是高的,mean代表平均测序深度,后面是大于1X的捕获区域99.8左右,然后是大于10X的区域为99.3左右,由于人员操作等原因,各公司这一数据的范围在85%-99.5%区间,这一数值对于后面的分析至关重要,如果低于90%就可以说明实验是失败的,再后面是大于20X的区域。
那么具体怎么操作呢,可以参加游侠的教程来学习哦,简单易懂,只需18元。有问题在课程讲完后由单独的提问时间。