罕见疾病,按照欧盟的定义,影响不到1/2000的个体,但随着超过8000种罕见遗传病得到确认,它们在全球大约影响了10%的新生儿。识别和整理基因组变异对于个体的诊断和临床管理至关重要。像ClinVar和莱顿开放变异数据库(LOVD)这样的数据库提供了对遗传变异的查询与收集。临床科学家依赖这些资源来识别文献中呈现的记录证据并得出诊断,但大多数变异并没有根据人类基因组变异学会(HGVS)制定的实际命名标准进行准确描述。低于标准的命名使得变异(以及随后与它们相关的数据)无法识别,从而在期刊到数据库的数据流中造成了瓶颈,这是减缓诊断过程的一个因素,漏诊导致患者预后不佳。
为了解决这个问题,我们创建了一个名为VariantValidator的开源网络用户界面,以帮助用户(研究人员、学生和培训师、临床医生和数据库策展人,他们生成和使用遗传数据)导航HGVS命名法。VariantValidator提供了在所有相关参考序列(基因组、转录本和蛋白质)的背景下正确格式化的描述,并在基因组构建GRCh37和GRCh38之间自动转换。此外,VariantValidator还可以在HGVS格式和基于基因组坐标的变异描述之间自动相互转换,这些描述来源于(并遵循)变异调用格式(VCF)的变异命名标准。自2018年以来,VariantValidator已被用来标准化临床报告、文献和数据库中遗传变异的描述,并已被嵌入到我们的临床生物信息学教育项目中,用于医疗保健科学家。VariantValidator是在GitHub上开发的,我们的在线服务部署在英国莱斯特大学的虚拟LAMP(Linux、Apache、MySQL、编程语言)服务器和英国曼彻斯特大学的LEMP(Linux、EnginX、MySQL、编程语言)服务器上。
基于用户反馈,我们改进了
VariantValidator
的功能,引入了一系列工具,以比任何类似平台更高的准确性验证变异描述(图
1
)。用户驱动的迭代改进的一个重点是对不断演变的
HGVS
命名标准严格遵守。例如,我们增加了对额外
HGVS
格式的支持,包括
RNA
(
r.
)描述,这通常不是由其他命名法验证工具提供的(表
1
)。
VariantValidator
定期更新以处理更复杂的
HGVS
命名法格式,用户可以通过直接联系我们或在我们的
GitHub
页面上添加功能请求来请求添加新格式。响应技术需求,我们使
VariantValidator
兼容集成到组学平台。
VariantValidator
的核心引擎可以作为
Python
库安装,我们还开发了一个名为
VariantFormatter
的
Python
模块,旨在直接集成到基因组学工作流程中。
VariantFormatter
使用自定义和本地
VariantValidator
函数来验证基因组变异描述(
VCF
和
HGVS
),并将它们映射到
RefSeq
和
Ensembl
参考序列背景下的转录本(
c.
)和蛋白质(
p.
)变异描述。我们还整合了
Ensembl
转录本参考序列,贯穿我们的整个工具集。
为了确保严格遵守HGVS命名标准,我们与人类基因组组织(HUGO)HGVS变异命名委员会共同制定了参考序列指南(https://www.hugo-international.org/standards/),并对支持VariantValidator的通用转录本档案(UTA)9数据库进行了重新格式化。例如,我们的UTA版本(VVTA)确保参考序列ID完整且正确版本化,编码转录本至少包含一个完整的编码序列。我们还改进了处理单个转录本不同外显子结构的处理,这可能发生在转录本映射到不同的基因组ALT组装和补丁,以及主要的基因组构建时。此外,我们的转录本比对忠实地来源于RefSeq和Ensembl提供的官方发布版本。与软件部署同时,需要改变出版标准,以使用准确和完整的DNA变异命名。为此,VariantValidator团队加入了人类基因组组织序列变异报告(HUGO RSV)委员会,致力于鼓励变异报告中的标准合规性。这个委员会由编辑、编辑人员和生物信息学专家组成,专注于改进期刊中的变异报告,并发布了指导建议,建议作者在出版前使用验证软件。尽管有这些努力,但与《遗传医学》杂志的持续研究显示,提交的手稿中<95%需要在出版前更正变异描述,且<2%的手稿包含了HGVS命名法要求的完整描述集,以实现全面和准确的命名。
为确保在出版物中进一步采用
HGVS
标准,委员会联合了一个由美国医学遗传学和基因组学学院(
ACMG
)领导的全球多组织工作组,以建立与报告和共享解释的基因组变异相关的专业实践标准。为支持委员会的工作和专业标准,我们开发了一个
VariantValidator web-API
,生成包含准确格式化变异描述的结构化数据集,这些数据集可以作为手稿的补充材料提交。数据集将以人类可读的表格形式以及计算机可读的格式(如
Java Script Object Notation
,
JSON
格式)呈现,这将有助于机器学习算法的识别。这允许作者以他们专业内可识别的格式描述变异,同时确保手稿中的结构化变异证据是可查找的。同时,我们正在与
LOVD
团队合作,他们开发了一个基于分析用户应用
HGVS
命名法时常见错误的
HGVS
语法验证器。他们的工具仅在语法层面上验证描述,因此可以支持验证如
VariantValidator
更大部分的
HGVS
命名法。我们计划在
2024
年底之前集成
LOVD
语法验证器,允许识别额外的常见错误,并建议用户最可能的意图以及协助更正。在
HUGO
RSV
委员会和专业标准工作组的指导下,这种由实践驱动的迭代开发策略被用来推动共享遗传数据质量的改进,并确保在改善患者预后方面产生积极影响。
总之,许多临床学科严重依赖于临床文献中发表的遗传诊断数据,但出版商执行的标准不足以确保这些数据的准确表示。通过技术提供者、编辑标准委员会、专业标准工作组、期刊和出版商之间的合作,我们正在为文献和数据库中诊断基因组数据的准确表示铺平道路。