主要观点总结
文章介绍了非编码区域信息解码和基因表达机制调控的问题,以及表观基因组测序技术的发展。针对这些问题,研究团队提出了EpiGePT模型,该模型具备细胞类型感知能力,能够准确预测多种表观基因组信号。文章详细描述了EpiGePT模型的工作原理和优势,包括其预训练方式、输入特征、预测能力等方面。同时,文章还介绍了研究团队的在线预测服务和研究成果的发布情况。
关键观点总结
关键观点1: 非编码区域信息解码和基因表达机制调控是基因组学领域的难题。
文章指出了当前研究中存在的问题和挑战,包括非编码区域信息解码的难度、基因表达机制调控的不充分理解等。
关键观点2: EpiGePT模型的提出解决了传统模型和现有基因组语言模型在新细胞类型下预测能力的局限。
文章详细介绍了EpiGePT模型的工作原理,包括其基于多种细胞系或组织的细胞群测序数据进行大规模预训练的方式、输入特征、细胞类型感知能力的实现等。
关键观点3: EpiGePT模型具有强大的预测能力和泛化能力。
文章通过实验结果验证了EpiGePT模型的高准确性和强泛化能力,并介绍了其在基因调控机制、致病遗传变异研究、精准医学和靶向药物研发等方面的应用前景。
正文
人类基因组中非编码区域的信息解码一直是基因组学领域的基础性难题,调控元件如何在不同细胞类型中调控基因表达机制的问题至今仍未得到充分解决,非编码变异如何破坏DNA序列底层的调控语法也尚未完全阐明。随着表观基因组测序技术的发展,积累了大量可供研究这些问题的数据,包括染色质可及性、DNA甲基化、组蛋白修饰和三维染色质互作等,研究人员可以对基因组非编码区域的信息进行系统化解读。
与此同时,自然语言与生物序列之间的内在相似性启发了在基因组学中使用大型语言模型的尝试。大型语言模型的开发是近年来人工智能突破的主要推动力,并在生物信息学中得到了广泛应用。然而,目前的主流基因组语言模型往往仅DNA序列作为模型输入,在预测未知细胞类型中的表观基因组信号方面仍然存在局限。
亟需发展具有细胞类型特异性感知能力的预训练语言模型,实现对任意细胞类型和基因组区域的表观基因组信号预测,将会为解码基因调控机制、解读致病遗传变异提供更多的信息。
针对上述挑战和局限,
斯坦福大学统计系Wing Hung Wong教授、其博士后刘桥(即将加入耶鲁大学生物统计系任职助理教授)、清华大学自动化系江瑞教授
合作在
Genome Biology
发表题为“EpiGePT: a pretrained transformer-based language model for context-specific human epigenomics”的通讯文章。此文章提出了
EpiGePT模型,突破了传统模型和现有基因组语言模型在新细胞类型下预测能力的局限,利用DNA序列信息、转录因子表达信息和转录因子结合基序(TF-motif)信息准确预测包括染色质开放性、组蛋白修饰、转录因子结合强度多种表观基因组学信号。
该模型通过引入转录因子模块,使模型具备细胞类型感知能力,并融入3D染色质相互作用数据引导模型训练,从而实现了调控元件-启动子互作等三维基因组特征的高效预测。
具体而言,
EpiGePT基于多种细胞系或组织的细胞群测序数据进行大规模预训练
,其输入包含两个模块:
1)序列模块。
EpiGePT通过卷积、池化等操作学习长度为128 kbp的基因组区域的特征,并得到1000个分辨率为128bp的基因组区间的数字嵌入表示,作为Transformer编码器模块的输入特征之一。
2)转录因子模块。
EpiGePT利用转录因子基序结合知识数据库和已有工具Homer获取711个转录因子在每个128bp的基因组区间的潜在结合状态,并和转录因子的表达值(标准化后的TPM 值)相乘,得到每个基因组区间的细胞类型特异的嵌入表示。通过在token层面融合两种嵌入表示,构建Transformer编码器模块的输入特征,并利用其输出结合线性层,在token层面同时预测每个基因组区间的8种表观基因组信号。
该模型在104种细胞系或组织的数据上进行了预训练和实验验证。
此外,研究团队在部分细胞类型中融入三维基因组互作信息,并通过引入额外的损失函数,引导Transformer模块中自注意力机制的学习,从而增强模型对潜在染色质互作关系的捕捉能力。
基于EpiGePT,研究人员能够通过在人类任意细胞类型和基因组区域完成表观基因组信号的精确预测。研究团队也验证了EpiGePT模型在迁移至小鼠染色质开放性预测任务的泛化能力。EpiGePT能够通过直接基于自注意力分数、基于模型微调、基于三维基因组数据引导后的自注意力分数三种方式预测增强子-启动子、沉默子-启动子等顺式调控关系,同时也能够通过梯度筛选出特定细胞类型中发挥关键调控作用的转录因子。此外,EpiGePT在筛选致病遗传变异进行了研究,模型输出的细胞类型特异的数字表征能够提升已有工具(CADD)预测致病变异的准确性。
以上研究结果充分验证了EpiGePT的高准确性和强泛化能力,表明其能够为基因调控机制和遗传变异研究提供有力支持,并有望推动精准医学和靶向药物研发的进程。
研
究团队开发了网站http://health.tsinghua.edu.cn/epigept并提供了EpiGePT开源预训练模型以及在线预测服务。
该研究得到了NIH K99/R00基金、国家自然科学基金等项目的资助。清华大学自动化系博士生
高子靖
与斯坦福大学统计系
刘桥
为论文的共同第一作者,斯坦福大学统计系
Wing Hung Wong
、刘桥
与清华大学自动化系
江瑞
为论文共同通讯作者。相关成果于2024年12月发表于生物信息学领域旗舰期刊《基因组生物学(
Genome Biology
)》。
Gao et al. EpiGePT: a pretrained transformer-based language model for context-specific human epigenomics. Genome Biology 2024, 25: 310. https://doi.org/10.1186/s13059-024-03449-7.
·END·