专栏名称: 基因检测与解读
介绍基因检测新进展,探讨基因数据分析流程与方法,分享罕见病故事,科普基因知识,个人基因检测报告解读
目录
相关文章推荐
OSC开源社区  ·  深度实测Manus,我依然认为这就是AI ... ·  2 天前  
编程技术进阶  ·  超详细的 Manus 分析报告流出(速领,待会删) ·  2 天前  
编程技术进阶  ·  超详细的 Manus 分析报告流出(速领,待会删) ·  2 天前  
51好读  ›  专栏  ›  基因检测与解读

强到没朋友的遗传病位点筛选器-VVP

基因检测与解读  · 公众号  ·  · 2018-04-18 07:03

正文

作为遗传分析师,最重要的任务就是从几万个位点中筛选出致病位点,有些科室或机构比较严谨,人群频率过滤后通过人工一个位点一个位点去确认,有朋友抱怨说我一天就分析了一个样本,效率比较低,那有没有方法可以减少人工筛选位点的数目呢。当然有啦,一般来说有以下几种筛选策略,第一种是通过位点的质量参数把那些低质量的位点去掉;第二种是通过对照样本过滤掉常见SNP与系统误差;第三种是通过正常人群频率;第四种通过家系中其他成员患病情况寻找共同或不同位点;通过以上几种方法仍有好几百个位点需要进一步筛选,这时候软件预测危害性就可以应用了,但是有个问题是这些软件预测可能会遗漏一些真正的致病位点,之前游侠曾经评测过各种预测软件的灵敏度与特异性,见这里( 低频错义突变危害性预测哪家强 ),但是今天要介绍的软件从数据上看要更加强大。


首先这款软件是著名的Yandell实验室开发的,之前他们还开发过 VAAST pVAAST phevor 等软件,核心算法与 VAAST 类似都是通过 CLRT 计算的,简单来说就是看对照人群中某个基因出现各种突变的比例,再结合人群频率和功能结构域等,计算样本某一具体突变的原始得分,然后再转换为百分制,这与其他预测软件如 SIFT 完全不同。 VAAST Variant Prioritier (VVP) 判断有害的 cutoff 57 ,大于 56 即认为有害,小于 57 即认为容忍。算法我就不具体介绍了(反正都是数学公式,看不懂!)

下面我们直接看结果。

首先是运行时间,之前使用VAAST分析一个样本就要几个小时, VVP 大大改进了,一个全外显子大概只要 3 秒钟。


VVP 不仅可以预测错义突变 , 还可以预测移码 , 无义以及非编码区变异 , 所以找来了 CADD 这个全能高手一较高下 , 顺便评测了 SIFT 。为了评估准确性从 ClinVar 20170228 )挑出“ Review Status 18117 个良性位点和 14195 个致病位点, ROC 曲线如下


VVP的真阳性率达到 0.9805 ,这数值绝对爆表了,我怀疑真有那么好吗,改天一定要测试一下,假阳性为 0.065

接下来选择了ClinVar数据库中致病位点注释最多的 10 个基因,作者引入一个名词叫做临床效用( Clinical Utility ),等于准确性乘以可预测位点的比例。


你可以看到SIFT得分非常低,是因为很多无义突变与移码突变 SIFT 不能预测。以 CFTR BRCA2 为例, VVP 可以非常明显地把良性位点与致病位点区分开。


大家肯定都担心灵敏度提高了,会不会筛选出的位点会非常多(比如M-CAP),接下来评测了 NA12878 这个正常人有多少有害变异,当然这是个黑盒子谁也不知道到底有多少有害突变,理论上越小越好。


接下来VVP又对 dbSNP146







请到「今天看啥」查看全文