专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
51好读  ›  专栏  ›  生信菜鸟团

2025 Ensembl 数据库都更新了啥

生信菜鸟团  · 公众号  · 生物  · 2025-03-20 20:21

正文

Basic Information

  • 英文标题:Ensembl 2025
  • 中文标题:Ensembl 2025
  • 发表日期:04 December 2024
  • 文章类型:Database Issue
  • 所属期刊:Nucleic Acids Research
  • 文章作者:Sarah C Dyer | Andrew D Yates
  • 文章链接:https://academic.oup.com/nar/article/53/D1/D948/7916352

Abstract

  1. Ensembl(www.ensembl.org)是一个开放平台,整合了生命之树上与人类健康、农业和生物多样性相关的真核物种的公开基因组数据。
  2. 今年,代表的物种数量继续增加,已有超过4800个真核生物基因组和超过31300个原核生物基因组可供使用。
  3. 新的Ensembl网站目前处于测试阶段,一直在不断发展,目前持有超过2700个真核生物基因组装配。
  4. 新网站提供了基因组、基因、转录本、同源性和变异性的视图,并将取代当前的快速发布网站;这标志着朝着提供一个单一集成的Ensembl网站迈出了关键一步。
  5. 其他活动包括为人类、小鼠和农业物种开发改进的调控注释,以及扩展Ensembl变异效应预测工具。
  6. 要了解更多关于Ensembl的信息,帮助和支持文档可供查阅,并且可以通过我们的培训页面访问一个广泛的培训项目。

Introduction

Para_01
  1. Ensembl 平台整合并分析来自真核生物和原核生物的公开基因组数据,支持从基础研究到临床和农业应用的各种用例。
  2. 所包含的数据主要集中在基因组、基因组注释(包括基因模型和功能预测)、遗传变异以及与相关外部资源的链接。
  3. 基因预测、功能注释、调控区域预测和比较分析都是由 Ensembl 使用其开源管道自主完成的。
  4. 此外,还为若干物种导入了关键的社区生成注释。
  5. 数据可以通过 ensembl.org 访问,使用 BioMart,通过 REST API 编程方式访问,从我们的公共 MySQL 服务器以及我们的 FTP 站点访问,在那里可以获取标准文件格式和 Ensembl MySQL 数据库。
Para_02
  1. Ensembl 目前包含七个组成部分站点:ensembl.org 用于脊椎动物基因组,包括人类和小鼠参考组装;metazoa.ensembl.org 用于无脊椎动物;以及 plants.ensembl.org、fungi.ensembl.org、protists.ensembl.org 和 bacteria.ensembl.org 分别用于植物、真菌、原生生物和细菌/古菌。
  2. Ensembl 的快速发布站点 rapid.ensembl.org 于 2020 年建立,旨在为来自全球生物多样性和泛基因组项目的基因组提供一条途径,以便迅速部署一个轻量级版本的 Ensembl。
  3. 快速发布站点的最终数据发布发生在 2024 年 9 月,所有数据都在 beta.ensembl.org 上进行了镜像,beta.ensembl.org 是‘快速’发布的新的家,或者在组成部分站点。
  4. 我们将在 2025 年年中之前提供快速发布的功能减少的存档,届时我们预计所有快速发布用户都将过渡到我们的新基础设施。

Diversity of genomes

Para_03
  1. Ensembl 目标是为广泛的利害关系者提供基因组和数据,涵盖人类、模式生物、具有农业和医学相关性的物种以及全球生物多样性项目中的物种。
  2. 在过去的12个月里,我们已经增加了来自超过800个物种的1000多个真核生物基因组装配,主要来自无脊椎动物和植物,这使我们总共达到了35000个基因组(图1)。
  3. 这些增加主要是由与生物多样性项目和资源的合作以及用户请求所驱动的,例如 VEuPathDB (1)、种内泛基因组。
  4. 我们引入的所有基因组的一个要求是,该装配必须可以从国际核酸序列数据库合作档案中获得(https://www.insdc.org)。

在所有Ensembl站点中可获得基因组的真核生物物种分布。基于NCBI分类法,展示了所有Ensembl站点中可获得基因组的真核生物物种分布,突出了分类群及其谱系之间的层级关系。该树通过ETE3的NCBI界面进行估算(43),并使用iTOL进行了注释(44)。彩色圆圈代表了对应区域树中物种所属的高级分类划分。

图片说明

◉ 这是属于图1的内容。

Para_04
  1. 我们正在努力开发一个统一的Ensembl网站,在接下来的两年内计划整合我们现有的所有组件网站。
  2. 在此期间,我们建议用户继续使用这些组件网站,因为它们具有完整的Ensembl功能。
  3. 然而,已经有超过2000个基因组,主要来自昆虫、动物和植物,仅可以从我们的新测试网站获得(参见‘图形概览’部分)。
  4. 我们鼓励对那些物种感兴趣的用户探索我们的新网站,我们将继续扩展可用的数据和功能。
Para_05
  1. 在 Ensembl Metazoa 网站上,我们增加了近 80 个新基因组,旨在增加我们所托管物种的分类覆盖范围。
  2. 值得注意的是,新增了 12 个新的分支:一条带状蠕虫分支(线虫动物门),六个昆虫分支(毛翅目、瘿蚊科、食蚜蝇科、蓑蛾科、姬蜂科和斑腿蝗科)。
  3. 一个非毒蜘蛛分支(幽 orb 蜘蛛科),两个十足目甲壳动物分支(弯唇蟹科和淡水蟹科)以及两个水螅纲刺胞动物分支(海葵科和水螅科)。
  4. 我们将继续导入和更新我们持有的关键社区参考文献,并且随着分类覆盖范围的扩展,在未来的发布中,例如通过在 Ensembl 发布 113 版中增加物种 Cylas formicarius 作为鞘翅目象鼻虫科(原始象鼻虫)的一个新代表。
  5. Ensembl 真菌和原生生物也将根据来自其他公共真菌资源的数据更新一系列关键基因集。
Para_06
  1. 关键基因组用于农业相关植物物种已被添加到Ensembl Plants中,包括谷物:山羊草(Aegilops umbellulate)、Timopheev小麦(Triticum timopheevii)以及优质面包小麦品种Paragon(Triticum aestivum)的染色体水平组装。
  2. 此外,以下豆类已被引入:野生大豆(Glycine soja)、花生(Arachis hypogaea)、圆叶苜蓿(Medicago truncatula)、蚕豆(Vicia faba)和草豌豆(Lathyrus sativus)。
  3. 我们还更新了木薯(Manihot esculenta)的基因组,这是一种非洲和拉丁美洲的主要作物。
Para_07
  1. 随着社区逐渐远离单一参考基因组的做法,Ensembl 正越来越多地为某一物种托管多个基因组。
  2. 对于驯养和伴侣动物的基因组,我们已经注释并添加了两个马(马属家马)品种(弗里西亚和温血马)以及两种鸡(原鸡)品种(科布和罗斯),作为 EuroFAANG 和 VGP 项目的一部分,将它们添加到了 Ensembl 主网站上。
  3. 我们也注释了大西洋鲑鱼(大西洋鲑)、大西洋鳕鱼(鳕鱼)和三刺鱼(刺鱼)的其他品系。
  4. 我们计划通过在未来发布的 Ensembl Plants 版本中加入大麦(普通大麦)和燕麦(燕麦),来扩展当前托管的泛基因组集合。

Annotation updates—human and beyond

Gene annotations

基因注释

Para_08
  1. GENCODE项目旨在使用手动注释和计算分析相结合的方法识别和分类人类和小鼠的所有基因特征,并通过有针对性的实验方法进行辅助。
  2. 在Ensembl中,GENCODE是人类和小鼠的默认基因集。
  3. MANE(NCBI和EMBL-EBI匹配注释)项目旨在定义一套代表整个人类蛋白编码基因的转录本和相应的蛋白质,每个转录本在Ensembl/GENCODE和RefSeq注释集中都是相同的,并且存在于GRCh38参考装配中。
  4. MANE(在Ensembl版本112中为v1.3)涵盖了超过99%的人类蛋白编码基因,并包含19288个MANE选择转录本(在每个蛋白编码位置上一个代表性生物学转录本),其中包括美国医学遗传学与基因组学会第二次发现列表v3.2集中所有基因。
  5. 该集合包括62个在基因补丁上注释的MANE选择转录本,因为它们无法在主要的GRCh38装配中表示。
  6. 此次发布还包括64个MANE Plus临床转录本,这些转录本是在MANE选择集合不足以报告所有致病或可能致病变体的情况下增加的。
  7. 我们还为一小部分临床上重要的长非编码RNA(lncRNA)增加了MANE选择转录本。
  8. 第一套MANE选择lncRNA可以在Ensembl版本113中的MANE v1.4中找到。

图片说明

◉ 图2展示了人类基因HK1在Ensembl选择、MANE Plus临床和GENCODE主要转录本中的位置视图。 ◉ 这是来自Ensembl发布版本112的人类GRCh38装配染色体10上HK1基因的截图(https://www.ensembl.org/Homo_sapiens/Gene/Summary?db=core;g=ENSG00000156515)。 ◉ GENCODE主要集合将默认视图中的转录本数量从完整的30个减少到3个(截图被截断),这三个转录本是MANE选择、MANE Plus临床和GENCODE主要。 ◉ 灰化的转录本是指不在GENCODE基本集合中的那些转录本,在这个基因中有12个转录本属于GENCODE基本集合。

Para_09
  1. 目前有两个可用的 Ensembl/GENCODE 转录组集:一个包含蛋白质编码基因的全长编码转录物的集合,以及一个每个基因座只有一个转录物的集合,包括所有其他基因型,如长链非编码 RNA(GENCODE 基本)和一个包含所有转录物的集合(GENCODE 全面)。随着基于长读长转录组证据的更多全长异构体被注释,基本集合正在迅速扩展。因此,我们引入了第三套,即 GENCODE 主要,目前仅限于蛋白质编码基因(图 2)。该集合默认包括 MANE Select Ensembl 规范和 MANE Plus 临床转录物。我们使用生物学数据(表达和进化约束)来评估不包含在参考(MANE Select)转录物中的特征(外显子、内含子和剪接位点)的功能潜力,并且具有功能特性的特征。然后运行 Ensembl Select 管道,该管道旨在识别候选 MANE Select 转录物,以找到包含已识别新功能特征的最高评分转录物。每次 Ensembl/GENCODE 发布都会重新运行此管道,并且从 Ensembl 发行版 112 开始,这些附加转录物在 GFF3 文件中标记为 GENCODE 主要,在发行版 113 及以后版本的基因页面上的转录表中有可见标记。
  2. This set includes by default the MANE Select Ensembl Canonical and MANE Plus Clinical transcripts.
Para_10
  1. 此外,我们已经注释了来自小鼠基因组计划的17种近交小鼠品系的最新组装版本(5)。
  2. 这些注释是通过结合使用Ensembl映射流水线产生的,这些流水线最初是为HPRC项目中注释人类单倍型组装而开发的(6),以及将特定品系的转录组数据与基因组进行比对。
  3. 小鼠品系的注释目前可通过rapid.ensembl.org获得,并将在即将发布的版本中整合到Ensembl的主要和测试站点。
  4. 我们还更新了14种鱼类参考物种的注释,包括三刺鱼(刺鱼目刺鱼科刺鱼属)、大西洋鲱鱼(鲱形目鲱科鲱属)和北方pike(Northern pike)(北方pike属)。
  5. (Northern pike属于北方pike属,学名为Esox lucius。)
Para_11
  1. 我们显著扩展了我们的非脊椎动物注释,向我们的测试网站增加了60个新注释的植物基因组,在去年我们使用Ensembl管道注释了第一个植物基因组这一里程碑成就之后。
  2. 此外,我们将研究范围扩大到包括新的分支,利用Ensembl自动化注释管道注释了63个刺胞动物、39个软体动物、3个苔藓动物和2个棘皮动物,以及其他分类群。
Para_12
  1. 我们继续为来自各种全球多样性倡议的基因组组装进行注释,例如达尔文生命之树项目(7)、欧洲参考基因组图谱(8)和地球生物基因组计划(9),以及最近的加拿大生物基因组计划和水生共生基因组计划(10),使用的是Ensembl自动化注释系统(https://beta.ensembl.org/help/articles/gene-annotation)。
  2. 拥有足够的和多样化的RNASeq数据是注释过程的前提条件。
  3. 这些项目的Ensembl数据通过Ensembl项目页面进行汇总:projects.ensembl.org。

Microbial gene annotations

微生物基因注释

Para_13
  1. 我们发布了一个全面且强大的NextFlow管道,用于使用多种工具和数据库(如Prokka、InterProScan和AMRFinderPlus)来注释原核生物基因组,从而尽可能多地预测功能信息。
  2. 由于某些分类群的注释稀少,这可能对某些原生动物特别具有挑战性。
  3. 该管道的先前版本被用于重新注释Ensembl Bacteria中的所有基因组,并且Ensembl Bacteria的后续发布将包含对该管道的更新。
  4. 该管道是容器化的,并且免费提供。

Regulatory features

监管特征

Para_14
  1. 除了基因注释,Ensembl 为人类和小鼠注释了一组候选调控特征,三个家畜物种(牛(Bos taurus)、猪(Sus scrofa)和鸡(Gallus gallus))以及五个水产养殖物种(大西洋鲑鱼(Salmo salar)、圆鳍鱼(Scophthalmus maximus)、欧洲鲈鱼(Dicentrarchus labrax)、虹鳟鱼(Oncorhynchus mykiss)和鲤鱼(Cyprinus carpio carpio))。
  2. 人类和小鼠的注释集基于由路线图表观基因组学和ENCODE收集的表观基因组数据(16);猪和鸡的注释基于GENE-SWitCH(https://www.gene-switch.eu)的数据和动物基因组功能注释(FAANG)项目(17);牛也基于来自该FAANG项目的相同数据。
  3. 我们的水产养殖注释是在与AQUA-FAANG(18)联盟合作下进行的。
Para_15
  1. 在(19)中,我们描述了我们最初的将监管注释流程迁移到新系统的尝试,该系统使用合并的开放染色质区域作为监管特征的基础,而不是染色质分割。
  2. 在过去的一年里,我们通过向我们的新系统中添加增强子和CTCF特征完成了这一迁移,并将其应用于另外五个物种,包括人类和小鼠,使我们支持的物种总数达到10种,可在Ensembl发布版113中获得。
  3. 根据与H3K4me1或H3K27ac ChIP-seq的重叠,这些特征被分类为增强子,或者如果它们与蛋白质编码和长链非编码RNA转录物的潜在转录起始位点重叠,则被分类为启动子。
  4. 我们还利用不同表观基因组(细胞类型、细胞系或组织)中开放染色质峰的存在和缺失来预测这些表观基因组中监管特征的活性。
  5. 这个流程在Ensembl发布版111中被用于生成更新的监管特征注释——包括启动子、增强子和开放染色质区域——对于上述提到的畜牧和水产养殖物种,但不包括牛。
  6. 在发布版112中,我们对比目鱼进行了较小的改进,并更新了我们在人类中的启动子注释,以确保它们与转录物的5'端对齐。
  7. 基因与启动子之间的基础联系现在对所有物种都是可用的,作为我们FTP站点上GFF3注释文件的一个属性(https://ftp.ensembl.org/pub/current_regulation/)。
  8. 在Ensembl发布版113中,我们增加了牛作为一个支持的物种,引入了一个新的基序映射流程,包含了CTCF特征,并使用最新的流程更新了我们的人类和小鼠注释,以确保我们所有的监管注释都采用了相同的方法。

Molecular interactions

分子相互作用







请到「今天看啥」查看全文