专栏名称: NaturePortfolio
Nature Research官方账号,介绍中国及世界科技出版业最新动态,如何在Nature及其子刊上发表论文,针对中国研究人员的最新产品及服务。
目录
相关文章推荐
科研大匠  ·  3分钟问卷调查,赢Springer ... ·  昨天  
研之成理  ·  Nano ... ·  2 天前  
募格学术  ·  河南大学公布学术副校长海霞的排名 ·  昨天  
募格学术  ·  安家费45-55万(军队文职),年薪30-1 ... ·  昨天  
51好读  ›  专栏  ›  NaturePortfolio

基于多重序列比对的基因组语言模型精确预测人类全基因组变异效应

NaturePortfolio  · 公众号  · 科研  · 2025-02-11 12:40

正文









研究背景
基因组序列变异效应的预测(variant effect prediction)是当今遗传学、基因组学以及精准医学领域的核心挑战之一。在日益增多的人群全基因组测序项目中,大量基因组序列变异被发现,但研究者仍缺乏有效手段对这些变异在全基因组尺度上的基因功能影响及致病性进行全面评估。高效的计算模型不仅有助于解析和分类这些大规模的无标注序列变异,还能进一步推动致病序列变异的发现,助力遗传病的临床诊断与治疗。
结果与展望
为实现全基因组序列变异效应的精准预测,来自加州大学伯克利分校的Yun S. Song教授课题组开发了基于多重序列比对的基因组语言模型 GPN-MSA(Genomic Pretrained Network based on Multiple-Sequence Alignment)。该模型显著降低了训练所需的计算资源,并在多个临床及高通量实验的序列变异数据集上验证了其优越的预测准确性。


图1. GPN-MSA利用脊椎动物多种序列比对辅助语言模型训练

基因组语言模型(genomic language model, gLM)采用自然语言处理中广泛应用的自监督学习框架,通过大规模无标注的DNA序列数据训练,从中学习基因组序列的特征及功能约束。此前,基于类似框架的蛋白质语言模型已在蛋白质序列变异效应预测中取得了显著成果,但由于人类基因组序列包含大量非编码区域和重复序列,其建模复杂性和难度更高,现有基因组语言模型在这一问题上的表现尚不理想。

GPN-MSA 使用数十个脊椎动物基因组构建的多重序列比对数据作为 Transformer 模型的辅助特征。多重序列比对提供了丰富的序列保守性信息,为模型训练和推断提供了有力的支持,从而显著加速了模型训练速度并提升了预测表现。相较于此前需要上百块 GPU 进行数十天预训练的单序列基因组语言模型,GPN-MSA 仅需使用 4 块 Nvidia A100 GPU,3.5 小时内完成训练。

在多项基准测试中,GPN-MSA 展现了高预测准确性,包括在临床数据库(如 ClinVar、COSMIC、OMIM)、高通量实验数据(如 ProteinGym、DepMap)以及群体基因组数据(如 gnomAD)等。这些数据集覆盖了不同基因组区域和功能分类的序列变异,全面验证了 GPN-MSA 在不同场景下的适用性和鲁棒性,特别是在遗传变异的致病性预测及罕见遗传病诊断方面表现出极大的潜力。

作者简介
加州大学伯克利分校(UC Berkeley)Yun S. Song教授为该论文通讯作者。课题组主要研究方向为计算生物学,长期致力于开发统计与机器学习方法以解决基因组学和生物医学领域的关键问题。课题组博士后Gonzalo Benegas为该研究的第一作者。

《自然-生物技术》 Nature Biotechnology

DOI: 10.1038/s41587-024-02511-w



扫码查看论文原文
A DNA language model based on multispecies alignment predicts the effects of genome-wide variants










请到「今天看啥」查看全文