专栏名称: BioArt
BioArt致力于分享生命科学领域科研学术背后鲜为人知的故事,及时报道和评论生命科学领域有料的动态,BioArt也是一个生命科学领域“百花齐放,百家争鸣”的舞台,循“自由之思想”与“独立之精神”为往圣继绝学。
目录
相关文章推荐
BioArt  ·  Nature | ... ·  2 天前  
生信人  ·  术前ctDNA检测在早期NSCLC中的临床实用性 ·  5 天前  
生信人  ·  孟德尔随机化只会越来越火 ·  6 天前  
51好读  ›  专栏  ›  BioArt

Nat Genet | Borzoi:基于深度学习的RNA处理变异精准解读工具

BioArt  · 公众号  · 生物  · 2025-01-30 09:46

正文

撰文 | 易


随着高通量基因组学技术的进步,我们对基因表达调控的理解已从传统的DNA序列研究扩展到更加复杂的转录后调控机制。RNA的处理不仅包括转录阶段的基因表达,还涉及剪接、多腺苷酸化等过程,这些步骤在基因功能实现和疾病发生中起着至关重要的作用。尤其是基因变异对RNA处理的影响,研究表明一些非编码区域(如3' UTR和剪接位点)的变异可能显著改变基因表达模式,而这些变异与多种疾病(如癌症、神经退行性疾病和遗传性疾病)密切相关。

尽管已有多种方法用于基因变异的解读,如eQTL(表达数量性状基因座)和sQTL(剪接数量性状基因座),但这些方法大多依赖传统的统计学手段,难以深入揭示基因变异与RNA处理之间的复杂关系。与此同时,RNA-seq技术能够提供关于基因表达、剪接和多腺苷酸化等方面的重要信息,成为解析RNA处理变异的关键工具。然而,RNA-seq数据的复杂性,尤其是涉及多层次调控的情况,使得变异的预测与解释变得极具挑战性。

现有的机器学习模型,如APARENT2和Pangolin,虽然在某些任务中表现出较好的性能,但在捕捉复杂的RNA处理变异以及组织特异性RNA调控方面仍存在一定局限。为了克服这些问题,需要开发能够有效整合多种数据源、具备强大预测能力并能提供精确解释的模型。

近日,谷歌母公司Alphabet资助成立的Calico Life Sciences公司,由David R. KelleyJohannes LinderNature Genetics期刊上发表了题为Predicting RNA-seq coverage from DNA sequence as a unifying model of gene regulation 的文章,介绍了Borzoi模型。该模型是一个基于序列的机器学习工具,用于预测RNA-seq覆盖度,旨在解释RNA处理中的遗传变异,尤其涉及转录、剪接和多腺苷酸化等过程。RNA-seq数据变异的解读是基因组学中的一项重要挑战,特别是对于3'端UTR区域、剪接位点及其对基因表达的影响。为了提高对这些变异的理解,Borzoi模型整合了多种RNA-seq实验数据,能够较好地捕捉这些调控机制。


Borzoi模型的开发与验证:
Borzoi是一种基于序列的深度学习模型,通过分析广泛的RNA-seq实验数据,学习如何预测不同类型的RNA处理(如转录、剪接和多腺苷酸化)对基因表达的影响。在与现有最先进模型(如APARENT2和Pangolin)进行对比时,Borzoi展现出了具有竞争力的性能,尤其在解析polyadenylation QTL(paQTLs)和splicing QTL(sQTLs)等任务上。

对3′ UTR的PolyA化变异的预测能力:
Borzoi能够通过计算变异效应分数,准确预测与3′ UTR内多腺苷酸化位点相关的遗传变异。这些预测结果能够与来自GTEx数据集的RNA-seq实验数据有效对比,证明模型能够准确识别由特定基因型引起的PAS(polyadenylation site)使用变化。与其它工具(如APARENT2)对比,Borzoi在较远PAS位点(如2000 bp以上)的预测表现优于其他工具,尤其在模型集成(ensemble)时,其准确性得到了显著提升。

对剪接变异的预测能力:
Borzoi通过计算外显子-内含子覆盖率比值的变化,能够为剪接变异提供深入分析,识别出影响剪接的遗传变异。特别是在与sQTL相关的任务中,Borzoi对靠近剪接位点的变异(如小于200 bp的变异)表现出色,能够准确预测这些变异对RNA剪接的影响。在与Pangolin等现有工具对比时,尽管Pangolin在远离剪接位点的变异预测中具有优势,但Borzoi的整体性能仍展现出更强的泛化能力,尤其在靠近剪接位点的变异预测中优于Pangolin。

对内含子PolyA化变异的预测:
内含子中的PolyA化位点(内含子PolyA化)与剪接位点的竞争是RNA处理中的一个复杂现象,Borzoi能够有效识别这些变异,特别是在多腺苷酸化位点位于内含子区域时。在针对内含子PolyA化的paQTL分析中,Borzoi能够准确区分由不同基因型引起的PolyA化位点使用变化,并且与来自GTEx数据集的实验结果一致,显示出较高的AUPRC(精准度-召回率曲线下的面积)

训练数据的多样性对模型性能的提升作用:
通过在训练过程中结合来自不同数据源的多种数据(如RNA-seq、ATAC-seq等),Borzoi的性能得到了显著提升。尤其是在训练数据中包含染色质可及性和转录因子结合位点的相关数据时,模型的预测精度和泛化能力得到了增强。研究还表明,当训练数据涵盖来自不同组织的RNA-seq数据时,Borzoi能够提供组织特异性的预测和解读,进一步加深了对变异效应的理解。

模型的细致层次的预测和解释能力:
Borzoi不仅在预测变异对RNA处理的直接效应方面表现出色,还能够通过序列归因方法(如梯度归因和ISM方法)为预测结果提供深入的解读。特别是在3′ UTR和剪接位点的解读中,Borzoi能够揭示调控RNA表达和剪接的关键序列特征,帮助研究者识别潜在的调控因子。

与eQTL和sQTL数据的对比验证:
Borzoi模型通过对GTEx中的eQTL和sQTL数据进行分析,能够精准预测与这些QTL相关的基因变异,并在大多数任务中展现出比传统方法更高的准确性。例如,针对与基因表达相关的3′ UTR多腺苷酸化QTL(paQTLs),Borzoi能够提供更加细粒度的变异效应预测,从而有助于更好地解释变异与基因表达变化之间的关系。

综上所述,本研究介绍了一种新的模型——Borzoi,它为解码DNA序列与RNA表达之间的复杂关系提供了重要突破。Borzoi利用跨物种、跨条件和多种RNA-seq实验数据,成功解读了遗传变异对基因调控的影响,并为遗传数据的功能性注释提供了新的思路。该模型具有广泛的应用潜力,能够帮助深入理解疾病机制,并为基因表达调控相关的治疗靶点发现提供支持。

原文链接:
https://doi.org/10.1038/s41588-024-02053-6

制版人:十一


BioART战略合作伙伴

(*排名不分先后)


BioART友情合作伙伴
(*排名不分先后)

转载须知


【原创文章】BioArt原创文章,欢迎个人转发分享,未经允许禁止转载,所刊登的所有作品的著作权均为BioArt所拥有。BioArt保留所有法定权利,违者必究。





BioArt

Med

Plants

人才招聘

会议资讯



近期直播推荐