专栏名称: 基因检测与解读
介绍基因检测新进展,探讨基因数据分析流程与方法,分享罕见病故事,科普基因知识,个人基因检测报告解读
目录
相关文章推荐
中国基金报  ·  明起停牌!又有重磅宣布,适用重大重组! ·  12 小时前  
中国基金报  ·  英特尔,突发! ·  4 天前  
中国基金报  ·  大消息!这个平台,刚上线 ·  4 天前  
中国基金报  ·  一国有大行,聘任副行长! ·  4 天前  
51好读  ›  专栏  ›  基因检测与解读

千聊教程 | 分析全外显子的覆盖度与深度

基因检测与解读  · 公众号  ·  · 2017-07-13 06:58

正文

在临床应用全外显子检测遗传病时,首先要看一下质控,待测的基因是否捕获到?有多少区域大于10X? 很多时候基因检测机构并不提供这么具体的信息,可能会笼统的说XX%覆盖,平均深度是XXX,平均深度对于具体的基因并没有实际意义,另外在科研全外显子测序时,销售可能会说10G数据量,平均100X测序深度,实际结果到底是真是假很难说如果我们自己学会分析就可以亲自检验啦。

当初小编也是摸索了很长时间才get这个技能,在这里分享自己的代码供需要的朋友参考。

java -Xmx30g -jar /yourGATKFILE/GenomeAnalysisTK.jar-T DepthOfCoverage -R /reference_genome_dir/ucsc.hg19.fasta -o result_name -Ibam.list -L target.bed --omitDepthOutputAtEachBase --omitIntervalStatistics -ct1 -ct 10 -ct 20

稍微解释一下,算法是GATK DepthOfCoverage-R需要输入你的reference genomebam.list为待分析的样本,可将多个bam放在一个bam.list里,-L 需要提供捕获的区域,为bed格式,如果是agilent的全外显子可在其官方网站下载,-ct1代表至少覆盖1X的区域,-ct10代表至少覆盖10X的区域,你可以自己添加自己想要的深度。

我们以上海某知名测序公司的agilent v5外显子捕获测序为例,总数据量为8G左右,结果如下:

sample_id

total

mean

%above_1

%above_10

%above_20

WGC046119U

6734793499

133.65

99.8

99.2

98

WGC046118U

5966777557

118.41

99.9

99.2

97.6

WGC046101U

7129530413

141.49

99.8

99.3

98.2

WGC046100U

6618615369

131.35

99.9

99.4

98.1

一共4个样本,total代表在捕获区域的总的碱基数,也就是ontarget碱基数,如果我们除以总的测序总量就会得到捕获效率大概为60%左右,也就是40%的数据都是无效的,当然这样的捕获效率在业界算是高的,mean代表平均测序深度,后面是大于1X的捕获区域99.8左右,然后是大于10X的区域为99.3左右,由于人员操作等原因,各公司这一数据的范围在85%-99.5%区间,这一数值对于后面的分析至关重要,如果低于90%就可以说明实验是失败的,再后面是大于20X的区域。

那么具体怎么操作呢,可以参加游侠的教程来学习哦,简单易懂,只需18元。有问题在课程讲完后由单独的提问时间。