背景
罕见遗传病定义为影响<2000人中就有1人的疾病。总的来说,它们是影响6-8%人口的发病的常见原因,已经涵盖7000多种疾病,每年有200多种新疾病被发现。我们对罕见病(RD)遗传基础的了解不断加深,对医学和基础研究产生了深远的影响,诊断途径已经简化,由遗传学提供的疾病机制现在已经很常见,而以前它们很少见。了解新的遗传变异和基因可以为治疗干预的新方法提供信息。
基因组医学这些进步的核心是下一代技术的开发。最初用于对已知疾病基因面板和外显子组进行靶向测序,成本的逐步降低意味着现在作为医疗保健环境中的一线基因检测,对患者的整个基因组进行测序是负担得起的。事实上,
罕见病
患者的临床全基因组测序(WGS)目前正在多个国家进行,包括英国(最初由英格兰基因组学(GEL)的100,000基因组计划(100KGP),最近作为NHS基因组医学服务的一部分)、加拿大(通过Care4Rare计划)、美国(通过Medical基因组计划),日本(作为罕见和未确诊疾病倡议的一部分)、法国(在其基因组医学2025计划中强调的那样)、中国香港、印度(GUaRDIAN联盟)和巴西,而iHOPE计划(由Illumina资助的慈善联盟)正在为世界各地服务不足的
罕见病
家庭提供WGS。
现在的关键问题是如何进一步提高诊断率,因为大多数测序的个体仍然没有获得基因诊断。例如,GEL对其前2183个家系(4660个基因组)的初步研究的诊断率目前为25%,这与其他广谱临床
罕见病
研究中报道的诊断率相似。
一个需要改进的主要领域是对基因组变异类型和区域的评估,这些类型和区域不会被基因面板和基因芯片或全外显子组序列(WES)捕获
。尽管对整个基因组进行了测序,但WGS数据的临床诊断分析在很大程度上仅限于鉴定基因面板中预定义的基因中的单核苷酸变异(SNV)和小插入/缺失(INDELs),或者最多是在基因组的编码区中鉴定。很少对结构、非编码和剪接位点变异进行系统分析,但正是在这些以前未知的基因组区域和变异类型中,才有机会提高WGS的诊断率。
事实上,有相当多的证据表明这些不同的变异类型与
罕见病
的发病机制有关。已发现结构变异(SV),例如倒位,是一系列
罕见病
的基础,其中几种仅通过长读长测序鉴定。多年来,人们已经报道了一系列
罕见病
的深内含子变异,包括剪接位点变异和那些有助于mRNA加工的变异(VazDrago综述),但尚未通过临床基因组测序进行系统研究,非经典剪接位点变异对
罕见病
的贡献认为被低估了。临床WGS中遗漏这些变异类型的主要原因是缺乏适当的工具和数据集来识别它们,从而将大量真(但非致病性)和假(人为)变异与致病性变异区分开来。
在之前的研究WGS500的基础上,我们对500个基因组进行了测序,并确定了成功应用WGS分析患者基因组的关键因素,我们试图通过建立评估转诊的临床流程并在经认可的诊断实验室内进行测序,将WGS扩展到临床环境,在临床相关的时间范围内返回结果。我们在100KGP之前开始的OxClinWGS研究包括癌症和
罕见病
患者。癌症队列的结果,包括报告结果以告知及时使用靶向分子疗法的挑战,之前已经描述过,临床WGS的经济、法律和伦理考虑。特别是,我们报告了如果只考虑测序耗材成本而不考虑分析成本,WGS的成本可能会被低估,并且每个基因组的预期成本只有在大规模计划中才有可能实现。
我们的目标是对所有变异类型进行全面分析,包括剪接位点、结构和非编码变异,因为我们预计之前的测试可能会遗漏这些变异。我们将成熟的生物信息学工具与我们自己的新算法相结合,以帮助识别和解释这些更具挑战性的变异类型。其中包括我们用于分析SV的SVRare工具,包括拷贝数变异(CNV)、倒位和易位;我们用于剪接位点变异检测和注释的新算法ALTSPLICE和用于非编码变异注释的定制GREEN-DB数据集。我们在这里报告该OxClinWGS队列中
罕见病
病例的结果和诊断率。
结果
队列结果概述OxClinWGSRD队列共包括122个家系的300个基因组。招募了148名男性和152名女性参与者,其中大多数是欧洲白人血统,但也包括非洲、亚洲和美国家庭(附加文件1:图S3),反映了主要招募患者的人口。总体队列统计数据,包括家庭规模、性别、疾病类别和招募的个体病例的破获状态的详细信息,如图1B、C、附加文件3:表S4-S6和附加文件1:图所示。S6和S7。队列中所有患者的WGS结果,包括致病基因和变异(如果解决)和相关表型在附加文件3中提供:表S6和S7,其中还包括之前发表的一些个体病例的参考文献。附加文件2中提供了所选患者的更详细临床病例史。本研究中发现的变异已上传到ClinVar。
我们在该罕见病队列中的诊断率为43/122例(35%)。这些病例具有ACMG致病/可能致病性分类的变异(39/43),或者是已知疾病基因中具有因果关系证据的变异(4/43),这些变异被临床接受并返回,为这些患者的诊断或治疗提供信息。在整个队列中,我们认为39%的病例得到解决(47/122),因为另外4个病例在新疾病基因中存在变异,这些基因具有令人信服的因果关系证据,来自具有匹配表型或功能数据的其他家系(图1B,附加文件3:表S7和S8)。另有12/122(10%)病例在从基因分析中确定的主要候选病例中存在意义不确定的变异。还确定了2例具有clinical可操作的继发性发现的病例。图1D显示了通过变异类型解决的案例概述,WGS500基因分类(参见方法)如图1E所示。遗传模式、新生(de novo)状态和结果类的更多详细信息总结在附加文件1中:图S8。
图1
在整个队列中,我们确定了8个新的疾病基因。其中3项已得到确认,并作为合作研究的一部分之前发表;POLR2A中的新发p.Gln735*突变发生在一名新型神经发育综合征伴严重婴儿发作性肌张力减退的患者中;神经发育眼网综合征和癫痫患者的KMT2E新发p.Tyr1224fs突变和MCM10中的双等位基因变异(p.Gly79fs和c.764+5G>A)导致端粒缩短并引起免疫功能障碍和心肌病。DOCK7和SAMD9L两个基因在发现时是新的基因,我们有证据表明另外三个新的疾病基因(DHRS3、FOXD3、HDLBP)存在因果关系。其他主要候选基因的变异也在功能研究中进行研究。此外,一个基因RMND1对于多小脑回的表型是新颖的,而BMP4是Kapur-Toriello综合征的推定新基因,如果得到证实,将扩大该基因的表型范围,从目前与小眼症和唇裂综合征的关联。
图2显示了该项目在已解决的病例和新的候选疾病基因方面的成果总结
图2
变异类型和HPO信息概述
我们的分析流程研究了所有变异类型,包括SNV、INDEL和SV。按类别划分的所有变异的数量、它们的次要等位基因频率(MAF)、大小分布和预测的影响显示在附加文件1中:图S9-S12(含)。对于每个变异类别,我们研究了每个家系中新生(de novo)变异(附加文件1:图S13)。确定了14个致病性/可能发病性(ACMG分类)新生(de
novo)变异,包括FBN1中的一个次要发现(见下面)。将HPO术语整合到分析中,并有助于优先考虑与注释的患者表型相关的潜在疾病基因。平均而言,每个家系记录了4.7个HPO术语(范围1-24),其中'癫痫'是最常见的(附加文件1:图S14)。我们通常观察到,已解决的案例聚集了更多的HPO词。HPO谱的热图分析(附加文件1:图S15)表明不同疾病组之间存在重叠。例如,我们的超罕见病病例与神经学和肌肉骨骼(MSK)组一致,这可以通过以下事实来解释:该类别包含Fine-Lubinsky和Kapur-Toriello综合征患者,这些患者与
MSK
组中的颅缝早闭患者有一些共同特征。此外,热图还反映了血管、血液和免疫患者之间共有的临床特征。
虽然我们的大多数情况都是由蛋白质编码
SNV
解释的,但值得注意的是,
SVs
,剪接位点和深内含子变异迄今为止在
WGS
研究中尚未得到充分探索,共同贡献了我们解决的病例中的
20/47
(
43%
)。下面将更详细地介绍这些内容。
结构变异
结构候选变异占我们诊断率的4/43(9%)和我们考虑解决的病例的7/47(15%)(表1)。三个SVs导致两个新型疾病基因的鉴定。第一个是包含启动子的纯合3.9kb缺失在两个兄弟姐妹中鉴定出DHRS3的5UTR来自一个有颅骨的巴基斯坦近亲家庭骨愈合。编码脱氢的基因缺失脱氢酶/还原酶-3有望导致血浆中形态发生素全反式体水平的上升液相色谱法证实的维甲酸层析多级串联质谱。
发现另外两个颅缝早闭家族在第二个新的
RD
基因
FOXD3
的两侧具有杂合
SV
,这两个基因都在其特异性家族中与疾病分离。
FOXD3
编码一种对早期胚胎发育至关重要的先锋翼状螺旋转录因子(
TF
),因此是颅缝早闭的良好候选者。
其中一个家族患有双冠颅缝早闭,在
FOXD3
下游有一个
354kb
的缺失,去除了拓扑关联结构域(
TAD
)边界。
另一个具有多缝合颅缝早闭的家系在
FOXD3
上游有
11.5kb
的重复,该基因复制了一个高度保守的增强子元件,该元件先前显示与
Foxd3
相互作用并驱动鸡胚胎中的神经嵴表达。
这种
SV
已通过在小鼠身上建模得到证实,小鼠也会出现颅缝早闭。
第四个SV导致一名患有Aicardi综合征的女性患者的临床诊断发生变化,这是一种罕见的先天性畸形综合征,几乎只见于女性,其特征是胼胝体发育不全、癫痫发作和脉络膜视网膜腔隙。尚未确定导致这种综合征的基因。在我们患者体内鉴定的X染色体上一段3kb的新生(de
novo)缺失去除了ARX的第一个外显子。PCR和Sanger测序对这种缺失的价值被附近的重复序列和该区域的高GC内容所混淆,但反而被MLPA证实(图3A-C)。ARX的变异与多种X连锁智力障碍(XLID)综合征有关,包括XL无脑畸形、发育和癫痫性脑病1型(DEE1)和Partington综合征,反映了TF同源框基因家族的这一成员在控制胚胎早期发育过程中许多大脑结构形成的核心作用。根据我们的WGS结果,回顾了该患者的临床特征,由于她患有发育性和癫痫性脑病以及胼胝体发育不全,但没有Aicardi综合征典型的眼科特征,她的临床诊断更改为DEE1(OMIM#308350)。
图3
第五个SV导致WWOX外显子6-8的框内219kb缺失,导致180个氨基酸丢失,包括线粒体靶向序列。这个变异与c.705dup(p.His236fs)变异成反式,并为严重癫痫患者提供了诊断。这些复合杂合变异先前被报道为扩大与该基因相关的表型谱的病例系列的一部分。
另外两个SV代表更复杂的重排。通过先前的临床芯片检测,已在两名患有严重神经发育综合征和肌张力减退的兄弟中鉴定出Xp22.11-Xp21.3的633kb大重复。短读长WGS数据使我们能够确定这种重排的精确断点,此外还可以识别Xq27.1(Fig.3D)的第二个102kb重复。较大的重复包含PDK3、PCYT1B和POLR1A,而较小的重复不包含任何注释基因。尽管split
读长对表明两个重复是相互关联的,但仅靠短读长数据无法确定两种可能的配置中哪一种是正确的(图
3E
)。
然而,
FISH
数据与光学映射(一种正交技术)相结合(图
3F-H
)表明,
633kb
片段插入到
102kb
串联复制体内,位于
SOX3
下游约
200kb
处。
据报道,
SOX3
下游的基因组研究会导致许多可变的疾病,包括下足腺痛和喉外展肌麻痹。
因此,我们在这里假设了类似的位置效应,涉及长距离调节机制。
在一名遗传性上颌前突患者中发现了第二种复杂重排。该患者将1号染色体的5个片段插入染色体17q24.3,据推测,这会破坏接近KCNJ2/SOX9的TAD。这种重排是通过纳米孔长读长基因组测序进行的,并被归类为染色体合成的一个例子,揭示了这种罕见的颅面表型的新机制。
虽然原则上,这些SV中的四个(WWOX、两个FOXD3和DHRS3变异)可以通过芯片检测到,但在WGS转诊之前,它们没有被检测发现,因为它们没有被探针均一地覆盖,不符合临床实验室报告的阈值或存在于新基因中;因此,它们的重要性没有得到重视(表1)。我们注意到,对于两个复杂的SV,仅通过阵列检测会使它们的全部复杂性被忽视,事实上,对于其中之一,用于表征精确插入位点的WGS分析是招募的原因,因为已经确定了较大的重复片段。
所有SV均通过独立方法进行验证,包括PCR和Sanger测序、MLPA、SNP阵列、纳米孔长程测序和BioNano(表1)以及所需方法的范围强调了在常规临床环境中大规模进行这项工作的挑战。
剪接位点和深内含子变异
我们使用了三种不同的剪接算法来为我们对剪接位点变异的分析提供信息;SpliceAI、MaxEntScan和我们的新算法ALTSPLICE。我们首先通过使用先前发表的、手动确认的临床剪接变异和对照SNV集将ALTSPLICE的性能与SpliceAI的性能进行比较,对ALTSPLICE进行了鉴定。ALTSPLICE和SpliceAI的分数显示在附加文件3中:表S9。发现ALTSPLICE的精确召回曲线下面积为96.8%,SpliceAI为96.4%(附加文件1:图S17),验证了ALTSPLICE算法,即两者的性能总体上是相似的,即使它们是独立构建和训练的。
我们鉴定了16个剪接位点或深内含子变异(其中14个是独一无二的),如表2所示。剪接位点变异占我们确诊病例的12/43(28%),占我们已解决病例的13/47(28%)。另外三个剪接位点或深内含子变异,在两种情况下是意义不确定的变异。表2和附加文件1显示了这14种独特变异的不同剪接算法的分数比较:图S18。
第一个经典剪接位点变异,即CHRNE中的c.1032+1G>C变异,在一名在临床检测中遗漏的先天性肌无力患者中被发现。在WGS后回顾性回顾原始Sanger测序时可以观察到这一点,这表明在订购WGS之前回顾以前的检测结果可能是有用的。
小头畸形患者的第二个经典剪接位点变异是由于RTTN外显子20末端的3bp缺失引起的,该基因已知与这种情况相关。SpliceAI得分很高(0.91),强调了这些算法在识别由小INDEL创建的剪接位点变异方面的效用。
第三个经典剪接位点变异是新生(de novo)剪接供体变异(c.2345+1G>A),预测在已知的小头畸形相关基因WDFY3(OMIM#617520)中具有致病性,在产前扫描中观察到先天性脑异常(包括小脑)。这是对KIF5C中新生(de novo)错义p.Glu237Gly变异的补充(附加文件1:图S19),该基因中致病性杂合变异导致皮质发育不良并伴有其他脑畸形(CDCBM2,OMIM#615282)。SpliceAI和ALTSPLICE都预测了反向链上WDFY3中供体位点的丢失,并弱预测了供体增加,这将导致外显子跳跃,分别导致无义介导的衰变(NMD)或替代亚型。已知疾病基因中存在两个新发致病突变,这表明该患者可能具有混合表型,这可以解释患者微头畸形的严重程度(有关进一步讨论,请参阅附加文件2)。一项早期临床外显子组研究表明,高达5%的RD患者可能由于两个或多个单基因缺陷而具有表型,这一值在最近一项对7374例患者的WES数据的研究中得到了重复。我们无法在患者来源的细胞中确认这些WDFY3和KIF5C变异,因为原始样本来自终止妊娠,没有进一步的样本可用,但考虑到性腺嵌合体的可能性以及因此对生殖风险评估的影响,应考虑报告WDFY3中的其他变异
。
在已知基因中鉴定出7个非经典剪接位点变异。第一个位于SLC34A1的经典剪接位点(c.1175-3C>A)之外,并通过小基因测定验证(附加文件1:图S20),它与第二个变异c.241dup(p.Glu81fs)一起证实了该患者肾钙质沉着症的诊断。SEC23B聚嘧啶束中的c.1512-16A>G变异降低剪接效率,导致外显子14跳跃。该变异是在一名最初被认为患有遗传性球形红细胞增多症(HS)的患者中发现的,但在该患者与HS相关的基因中未发现致病性变异。在该患者中还发现了SEC23B中的第二个致病性变异,c.40C>T(p.Arg14Trp)。SEC23B不是与HS相关的基因,但已知与隐性遗传病、先天性红细胞生成障碍性贫血(CDAII)有关,后者经常被误认为是HS。WGS发现需要使用电子显微镜对患者的血细胞进行广泛调查,以确认临床诊断为CDAII的变化。这凸显了在临床专业知识和成本方面对资源的需求,这可能是验证WGS结果所必需的,在临床环境中可能具有挑战性,需要研究支持。内含子c.1512-16A>G变异不会包含在用于常规临床测试的目标组合中。
第三个非典型剪接位点变异,c.135+26A>G,在一名患者的隐性基因ABCB4中发现患有遗传性胆汁淤积症,并通过minigene基因检测得到证实(minigene验证找百翼,小琴
15527135357 微信同号
)。第一个命中,c.2200G>T(p.Glu734*)无义突变(stop
gain),已经被识别出来通过常规临床检测证实,但这是第二次打击WGS最终为此提供了遗传诊断年轻患者。
在
VHL
基因中鉴定了
4
个非经典剪接位点变异。虽然已知双等位基因
VHL
变异会导致先天性红细胞增多症,但这些患者所患的情况是,这些变异在内含子中太深(大于外显子
/
内含子边界
100bp
),无法通过常规检测或外显子组测序来发现。在其中
3
名患者中,已知的致病性变异
p.Arg200Trp
在
WGS
之前已被发现。
WGS
在
3
例患者中发现了相同的第二次命中,即
c.340+770T>C