作为遗传分析师,最重要的任务就是从几万个位点中筛选出致病位点,有些科室或机构比较严谨,人群频率过滤后通过人工一个位点一个位点去确认,有朋友抱怨说我一天就分析了一个样本,效率比较低,那有没有方法可以减少人工筛选位点的数目呢。当然有啦,一般来说有以下几种筛选策略,第一种是通过位点的质量参数把那些低质量的位点去掉;第二种是通过对照样本过滤掉常见SNP与系统误差;第三种是通过正常人群频率;第四种通过家系中其他成员患病情况寻找共同或不同位点;通过以上几种方法仍有好几百个位点需要进一步筛选,这时候软件预测危害性就可以应用了,但是有个问题是这些软件预测可能会遗漏一些真正的致病位点,之前游侠曾经评测过各种预测软件的灵敏度与特异性,见这里(
低频错义突变危害性预测哪家强
),但是今天要介绍的软件从数据上看要更加强大。
首先这款软件是著名的Yandell实验室开发的,之前他们还开发过
VAAST
,
pVAAST
,
phevor
等软件,核心算法与
VAAST
类似都是通过
CLRT
计算的,简单来说就是看对照人群中某个基因出现各种突变的比例,再结合人群频率和功能结构域等,计算样本某一具体突变的原始得分,然后再转换为百分制,这与其他预测软件如
SIFT
完全不同。
VAAST Variant Prioritier (VVP)
判断有害的
cutoff
为
57
,大于
56
即认为有害,小于
57
即认为容忍。算法我就不具体介绍了(反正都是数学公式,看不懂!)
下面我们直接看结果。
首先是运行时间,之前使用VAAST分析一个样本就要几个小时,
VVP
大大改进了,一个全外显子大概只要
3
秒钟。
VVP
不仅可以预测错义突变
,
还可以预测移码
,
无义以及非编码区变异
,
所以找来了
CADD
这个全能高手一较高下
,
顺便评测了
SIFT
。为了评估准确性从
ClinVar
(
20170228
)挑出“
Review Status
”
18117
个良性位点和
14195
个致病位点,
ROC
曲线如下
VVP的真阳性率达到
0.9805
,这数值绝对爆表了,我怀疑真有那么好吗,改天一定要测试一下,假阳性为
0.065
。
接下来选择了ClinVar数据库中致病位点注释最多的
10
个基因,作者引入一个名词叫做临床效用(
Clinical Utility
),等于准确性乘以可预测位点的比例。
你可以看到SIFT得分非常低,是因为很多无义突变与移码突变
SIFT
不能预测。以
CFTR
与
BRCA2
为例,
VVP
可以非常明显地把良性位点与致病位点区分开。
大家肯定都担心灵敏度提高了,会不会筛选出的位点会非常多(比如M-CAP),接下来评测了
NA12878
这个正常人有多少有害变异,当然这是个黑盒子谁也不知道到底有多少有害突变,理论上越小越好。
接下来VVP又对
dbSNP146