专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
生物学霸  ·  刘时昱实验室招聘科研助理/博士后 ·  4 天前  
生物学霸  ·  SCI 论文写作不得不说的万能句型(二) ·  4 天前  
生信人  ·  肿瘤免疫中的“三折叠”:p53-IL-34- ... ·  5 天前  
51好读  ›  专栏  ›  生信菜鸟团

数据库分享 | 欧洲生物信息学研究所(EMBL-EBI)最新发展情况报告

生信菜鸟团  · 公众号  · 生物  · 2024-12-26 07:55

正文

Basic Information

  • 英文标题: EMBL’s European Bioinformatics Institute (EMBL-EBI) in 2023
  • 中文标题:欧洲生物信息学研究所(EMBL-EBI)在2023年
  • 发表日期:28 November 2023
  • 文章类型:Na
  • 所属期刊:Nucleic Acids Research
  • 文章作者:Matthew Thakur | Johanna McEntyre
  • 文章链接:https://academic.oup.com/nar/article/52/D1/D10/7453257

Abstract

  1. 欧洲分子生物学实验室的欧洲生物信息学研究所(EMBL-EBI)是全球领先的公共生物分子数据来源之一。
  2. EMBL-EBI位于英国欣克斯顿的惠康基因组校园,是欧洲分子生物学实验室(EMBL)六个站点之一,EMBL是欧洲唯一的政府间生命科学组织。
  3. 本概述总结了EMBL-EBI数据资源为全球科学界提供的最新发展情况。
  4. 这些发展旨在确保EMBL-EBI资源能够满足这些科学界当前和未来的需求,加速开放生物数据对所有人的影响。
  5. 这些发展目的是确保EMBL-EBI的资源能满足全球科学界当前及未来的需求,从而加快开放生物数据对所有人产生的影响速度。

Introduction

Para_01
  1. 欧洲分子生物学实验室的欧洲生物信息学研究所(EMBL-EBI)是全球领先的公共生物分子数据来源之一。
  2. EMBL-EBI位于英国欣克斯顿的惠康基因组校园,是欧洲分子生物学实验室(EMBL)六个站点之一,EMBL是欧洲唯一的政府间生命科学组织,其研究基础设施和服务支持全球前沿科学研究。
  3. EMBL-EBI正在为EMBL的2022年至2026年‘分子到生态系统’计划做出贡献,该计划旨在建立生命在环境中的分子基础,以获得与理解地球上生命相关的新的知识,并提供转化潜力以支持人类和地球健康的进步。
Para_02
  1. EMBL-EBI 通过以下方式支持生命科学研究及其向医学、农业、工业和社会的应用:
    1. 通过促进科学进步的方式,向科学界免费提供数据和生物信息学服务。
    2. 通过研究人员主导的研究促进生物学的进步。
    3. 向各个层次的科学家提供生物信息学培训。
    4. 向业界传播前沿技术并应用于科学。
    5. 作为ELIXIR节点,支持欧洲生物分子数据提供的协调工作。
Para_03
  1. 本概述侧重于EMBL-EBI数据资源为全球科学界提供的服务,相关培训及在行业中的应用。
  2. 本期特刊其他部分有许多关于EMBL-EBI数据资源的专题文章,因此本概述将重点介绍其他地方未描述的数据资源的重大变化。
Para_04
  1. EMBL-EBI 数据资源包括:存档实验数据的提交数据库;提供注释、策展、重新分析和整合提交数据的增值数据库;以及开源软件工具,这些工具使这些资源能够被再利用。
  2. 提交数据库、增值数据库和工具均通过 EMBL-EBI 服务网页门户进行描述和访问。
  3. 所有 EMBL-EBI 数据资源和许多软件系统均可下载并在本地安装,并以开放和免费的方式提供用于再利用。
  4. 许多服务还提供了进一步的大批量和机器可读的访问方式,包括通过 API、FTP、Aspera 和 Globus 服务。
Para_05
  1. EMBL-EBI 的资源作为数百个外部资源、研究项目和工具的基础,下面描述了许多近期的发展。
  2. 2022年12月,全球生物数据联盟确定了其全球核心生物数据资源(GCBRs),该联盟是一个旨在协调全球生物数据基础设施并确保其可持续资金支持的研究资助者论坛。
  3. 全球核心生物数据资源是一系列被认定对全球生命科学和生物医学研究至关重要的数据资源。
  4. 2022年确定的37个全球核心生物数据资源中,有16个由EMBL-EBI托管或涉及该组织作为合作伙伴。
Para_06
  1. 在下面描述的许多更新中,一个新兴的主题是需要跨多种数据源和模态进行综合可视化和分析,以便探讨最前沿的研究问题。
  2. 下面描述的UniVar资源展示了整合的影响,将遗传学、大分子结构和蛋白质注释结合起来,为用户提供对变异对功能影响的最全面理解。
  3. PRIDE(PRoteomics IDEntifications)数据库也描述了下面在整合蛋白质基因组学功能方面的创新。
Para_07
  1. 开放数据实践和全球数据资源的激增虽然为用户提供了更多选择,但也带来了挑战,如何实现数据的可发现性、可访问性、互操作性和可重用性以创造影响。
  2. 下面报告的3D Beacons网络是一种使不同来源的数据更容易被用户发现和访问的方法。
  3. PRIDE采用标准质谱通用光谱标识符以及BioImage Archive采用的大规模生物成像数据集OME-Zarr标准的工作,为实现互操作性和可重用性奠定了基础。
  4. 组织良好、高质量、经过策管的数据资源对于人工智能应用程序开发者来说将继续保持至关重要的重要性,这一点通过BioImage Archive报告的计算机视觉和机器学习友好的数据集发现功能得到了证明,并在其机构层面的EMBL-EBI人工智能中心网站上进行了总结。

The Impact of EMBL-EBI data resources

EMBL-EBI数据资源的影响

Para_08
  1. EMBL-EBI 通过一系列指标跟踪数据资源的使用情况,包括网页请求次数、访问服务网站的独特 IP 地址数量、提交的数据量以及 EMBL-EBI 数据资源在科学出版物中收到的开放引用数量。
  2. 虽然每个指标都有局限性,并不能提供确切的使用量化数据,但综合考虑这些指标可以反映出使用规模和趋势。
Para_09
  1. EMBL-EBI的数据资源具有全球影响力,我们的用户群体覆盖了每一个联合国成员国。
  2. 最近的使用趋势表明,研究人员对EMBL-EBI数据资源的需求,在2020年新冠疫情初期激增后,到2023年仍远高于2019年疫情前水平,每月接近500万独立用户(图1)。
  3. 关于研究人员如何访问资源的问题,近年来,研究人员越来越多地采用批量和机器可读的方式进行访问。
  • 图 1. 2019 年至 2023 年访问 EMBL-EBI 数据资源的独特 IP 访问量(绿色)和网页请求量(黄色)。
Para_10
  1. 按体积计算的数据存档到EMBL-EBI档案资源的速度持续加快,目前活动存储已超过90拍字节(图2)。
  2. 两个最大的档案资源是欧洲核苷酸档案库(ENA)和欧洲基因-表型档案库(EGA),两者合计占迄今为止总数据存档量的90%以上。
  3. 值得注意的是,近年来成像数据资源的增长速度特别快,包括电子显微镜公共图像档案库(EMPIAR)和电子显微镜数据库(EMDB)在内的成像数据资源。
  4. 电子显微镜数据库由特纳和wwPDB财团于2023年管理(PPR:PPR738258)。
  • 图 2. 每年向七个沉积数据库资源中的沉积情况。注意对数刻度以及这一时期电子显微镜资源快速增长的速率。

Major changes in the EMBL-EBI data resource portfolio

ProtVar integrates amino acid information to facilitate interpretation of missense variants

ProtVar整合氨基酸信息以便利错义变异的解读

Para_11
  1. 错义变异是指单个核苷酸变化导致蛋白质内部氨基酸发生变化的点突变,进而引起复杂的下游表型效应、疾病易感性和药物反应。
  2. 2022年5月,欧洲分子生物学实验室-欧洲生物信息研究所(EMBL-EBI)推出了ProtVar工具,这是一项新的服务,用于在每个残基水平上对变异进行映射和注释,以分析和评估人类蛋白质中的错义变异(图3)。
  3. 蛋白质的功能注释,无论是经过人工校订还是自动生成的,均来自UniProt。
  4. 蛋白质结构及其结构注释来源于欧洲蛋白质数据库(PDBe)和AlphaFold。
  5. 使用PDBeMol*提供的交互式查看器,在蛋白质三维模型上展示变异及相关区域。
  6. 致病性预测来自进化变异效应模型(EVE)和组合注释依赖耗竭(CADD)工具,而保守性预测来自VarSite。
  7. 同一残基位置上的共定位变异来自于GnomAD、ClinVar、COSMIC及其他通过UniProt映射到蛋白质的数据源。
  8. 基于结构的预测,如预测的口袋、稳定性及界面,源自与Open Targets的合作。
  9. 这些结果可以在ProtVar用户界面中浏览、下载,并可通过API以编程方式获取。
  10. 这使得研究者、工业界和临床遗传学用户能够快速识别错义变异对人类健康和疾病可能产生的影响,具有潜在的应用价值于药物发现领域。
  • 图 3. 在 PRotVar 用户界面提交基因组或蛋白质格式变异体时的示例搜索结果。也可通过 API 获取。

Making experimentally determined and computationally predicted molecular structures FAIRer through the 3D-Beacons Network

通过3D-Beacons网络使实验确定和计算预测的分子结构更加公平可使用

Para_12
  1. 2021年,EMBL-EBI通过与Google DeepMind合作建立AlphaFold蛋白质结构数据库,进一步兑现了其对数据民主化的承诺,该数据库旨在降低使用像AlphaFold 2这样的尖端工具预测的蛋白质结构模型的获取门槛。
  2. 在此基础上,EMBL-EBI的PDBe团队于2022年启动了3D-Beacons网络,这是一个作为大分子结构模型提供商之间开放协作平台的系统(图4)。
  3. 该网络旨在以标准化格式提供来自所有贡献数据资源的模型坐标和元信息,从而成为一个多样化的结构数据统一平台。
  4. 值得注意的是,3D-Beacons网络提高了实验确定和计算预测的蛋白质结构的FAIR性(可发现性、可访问性、互操作性和可重用性)。
  5. 它是获取来自不同提供商的单体蛋白质和分子复合物结构的一站式解决方案,包括PDBe、蛋白质集合数据库、小角散射生物数据银行、AlphaFold数据库、Swiss-Model、模型档案和其他机构。
  6. 该网络围绕一个中心API构建,用户与之交互。
  7. 中心向数据提供商发送查询,汇总它们的响应,并以标准化格式将数据呈现给用户。
  8. 3D-Beacons网络的建立凸显了EMBL-EBI在大规模提供生命科学数据的FAIR访问方面所扮演的关键角色。
  • 图 4. 3D-Beacons 网络概览,这是 EMBL-EBI 新的数据共享平台。

Enabling Web and Programmatic Access through a renewed Job Dispatcher

通过更新的作业调度器实现网页和程序化访问

Para_13
  1. 作业调度器工具框架提供了用户大规模访问EMBL-EBI最受欢迎的生物信息学序列分析应用和序列库的便捷方式,它为公众提供了访问EMBL-EBI高性能计算集群的途径。
  2. 友好的网页界面及已建立的RESTful和SOAP网络服务应用程序编程接口(API)允许其融入第三方系统。
  3. 作业调度器支持EMI托管的各种流行序列分析服务,包括InterProScan、UniProt和Ensembl基因组。
Para_14
  1. 2023年启动了一个新的Job Dispatcher测试网站。
  2. 新网站重新组织和改进了工具与文档页面,并增加了新功能。
  3. 新增的文本字段使用户能够搜索作业结果,并提供了更详细的作业状态信息。
  4. 博客部分提供了一个渠道,让EMBL-EBI可以分享最新资讯和数据/工具更新。
  5. 我们还提供了广泛的在线帮助文档以及编程访问指南,并链接到相关的培训和推广活动入口点。

New features and applications of existing data resources

PRIDE promotes growth in proteomics data and integration into other resources

PRIDE 促进蛋白质组学数据的增长并与其它资源的整合

Para_15
  1. PRIDE(PRoteomicsIDEntifications)数据库是世界领先的质谱(MS)-基于蛋白质组学数据集资源,并继续领导国际ProteomeXchange联盟,该联盟是全球核心生物数据资源之一。
  2. 2023年至今,平均每月约有515个数据集提交给PRIDE。
  3. 这得益于数据提交自动化程度的提高,使得获得存取号所需的平均时间从34小时大幅减少到4分钟。
  4. 此外,PRIDE基础设施的其他改进提供了使用标准通用谱标识符访问质谱数据的改进功能。
Para_16
  1. 此外,PRIDE团队越来越多地重用和重新分析公共蛋白质组学数据集,并将结果整合到其他EMBL-EBI资源中,从而使蛋白质组学数据对生物学家和临床医生更加易于访问。
  2. 一些最近的数据重用例子包括:(一) 在Expression Atlas中整合定量蛋白质组学数据集,用于人类、小鼠和大鼠的基础组织数据;(二) ‘PTMeXchange’项目,通过链接PRIDE和UniProt之间的信息来使蛋白质后翻译修饰更加开放、可访问、互操作和可重复利用;(三) 通过使用不同背景下的蛋白质基因组学方法,在不同资源中链接蛋白质组学与基因组学/转录组学信息,涉及如Ensembl和MGNify等资源。

Interactive galleries and AI-ready datasets at BioImage Archive

生物图像档案中的交互式图库和已准备就绪的AI数据集

Para_17
  1. 生物影像档案馆(BioImage Archive),致力于存储和分发生物学图像,最近推出了两个互动图库,一个展示了从其收藏中挑选的各种在视觉上和生物学上都有趣的图像,这些图像因其成像技术和生物学相关性的多样性而被选中;另一个是‘AI就绪’图像数据集图库(图5)。
  2. 后一个集合不仅提供了图像,还提供了全图像注释文件,这些文件对于训练监督AI模型至关重要。
  3. 图像以一致的格式OME-Zarr提供,OME-Zarr是一种新兴的标准,用于分享大型生物学成像数据集。
  4. 图像和注释都附有详细的元数据,遵循REMBI指南以及2023年1月由EMBL-EBI组织的社区研讨会上制定的新标准,这些新标准专门针对图像注释。
  5. 数据展示格式特别定制,以满足机器学习和计算机视觉社区的需求。
  6. 随着时间的推移,这些集合将不断增长,因为适合重用以构建AI模型的数据集会被存档到档案馆中。
  • 图 5. 在 BioImage Archive 的新 AI 准备就绪画廊功能中可视化的一个斑马鱼成像数据集。行内注释显示了训练监督 AI 模型所需的发展阶段/对象分类。

More powerful integrated target-disease association evidence via Open Targets

通过开放目标获得更强大的集成靶标-疾病关联证据

Para_18
  1. 开放目标联盟汇集了学术机构(欧洲生物信息研究所和惠康桑格研究所)和制药合作伙伴(葛兰素史克、辉瑞、基因泰克、百时美施贵宝、赛诺菲),旨在系统地识别和优先考虑潜在的治疗药物靶点。
  2. 开放目标信息生态系统提供了开源工具和资源,支持更广泛的科学界实现这一目标。
Para_19
  1. 2023年,开放目标平台(https://platform.opentargets.org/)推出了新的界面设计,使用户能够动态地优先考虑目标-疾病证据数据来源,并快速访问任何目标-疾病关联的支持证据(图6A)。
  2. 新功能使用户能够更好地理解遗传变异的影响和基因扰动的后果,通过整合来自新的EBI ProtVar资源(上述和图6B,https://www.ebi.ac.uk/ProtVar/)中的蛋白质功能背景。
  3. 来自开放目标遗传学的基于数量性状位点(QTL)的效果方向(图6C,https://genetics.opentargets.org/)。
  4. 来自CRISPRbrain筛选的新数据(图6D)。
  5. 以及来自癌症DepMap基因必需性筛选的数据。
  • 图 6. 重新设计的 Open Targets 平台中的靶标-疾病关联页面。此处所示的页面是与靶标 PCSK9 相关的疾病和特征。注释 A-E 标出了文中描述的关注特性(https://platform.opentargets.org/target/ENSG00000169174/associations)。
Para_20
  1. 通过与EMBL-EBI的Europe PMC合作,将文本挖掘扩展到预印本和专利,从而增强了从科学文献中提取目标-疾病证据的能力(图6E)。
  2. 新功能利用OpenAI的GPT-3来提供文献证据中目标与疾病之间关系的情境摘要。
  3. 用户界面搜索功能的重新设计提高了数据的可查找性。
  4. 现在,随着每个平台发布的丰富元数据来源清单文件提供给用户,我们对FAIR原则的承诺得到了加强。
  5. 文献知识提取管道后端的改进提高了性能。
  6. 此外,我们通过为开放目标平台标记CC0许可,加强了支持开放获取研究的承诺,使下游用户能够不受限制地使用数据。

Industry

Para_21
  1. EMBl-EBI的行业计划与那些大量使用EMBl-EBI数据和资源的跨国研究密集型企业展开合作。
  2. 该计划采用基于订阅的模式,在其第27年的发展中,已经扩展到包括30家公司,涵盖了大部分全球前20强制药企业以及主要的农业食品、营养和医疗保健公司。
  3. 该计划基于科学,并围绕着非竞争性合作与讨论的原则进行构建和实施。
Para_22
  1. 对于EMBL-EBI而言,该计划提供了与主要生命科学公司中的关键利益相关者和意见领袖定期接触和互动的机会,这反过来有助于提高EMBL-EBI数据和服务的实用性。
  2. 计划的一个重要组成部分是定制的知识交流研讨会,这些研讨会专注于由会员提议的主题。
Para_23
  1. 行业计划每年在美国、日本和英国举办10-12个工作坊。
  2. 这些工作坊将领先学者的前沿研究带给一线产业科学家,并为基于产业的科学家们提供了一个中立的、非竞争性的环境,让他们能够分享同行间的学习成果,这经常暴露出可以共同应对的普遍挑战和机遇。
  3. 出于共同的兴趣来优化药物发现和发展,近期的工作坊主题包括人工智能/机器学习的应用、生物样本库的使用、基因组技术的最新发展、AlphaFold的应用、临床研究中的数字生物标志物、知识管理系统以及单细胞基因组学的应用。
Para_24
  1. 在相关的情况下,已将综述文章和白皮书/立场声明作为来自相关研讨会的直接成果发布。
  2. 这些包括行业对药物发现信息学应用的具体工具分析,如单细胞测序、机器学习、文本挖掘、患者来源的肿瘤异种移植模型以及抗体信息学。
  3. 在其他情况下,行业合作伙伴已经合作开发了具有广泛实用性的新本体和标准,包括在毒理学领域以及生物活性实体元数据方面
Para_25
  1. 来自农业食品行业的合作伙伴(拜耳作物科学、先正达和联合利华)目前正与欧洲生物信息研究所合作制定和建设农业数据平台。
  2. 为了实现这一目标,我们在2023年启动了一个专门的农业科技联盟,包括学术界和企业界。
  3. 提议中的欧洲生物信息研究所农业数据平台将是一个统一的公共数据平台,用于整合农业基因组和环境数据(例如作物、家畜、相关害虫和病原体、田间土壤和水),并结合用于数据分析的计算工具。
  4. 基于对开放目标平台的经验,我们有信心农业数据平台将成为一个宝贵的资源,它将汇集和整合现有的公共数据,并促进急需的数据共享共同标准的发展。
Para_26
  1. 未来,EMBL-EBI产业计划将根据其成员的需求继续发展,始终以一系列充满活力的知识交流研讨会为核心。
  2. 参与范围将越来越多地扩展到EMBL-EBI之外,涵盖所有EMBL站点,并且始终会提供混合形式的研讨会,以确保低碳足迹。

Training

Para_27
  1. EMBL-EBI的培训计划使科学家能够充分利用公开可访问的数据资源和服务,并培养关键的生物信息学分析技能。
  2. 所有现场课程均融入了FAIR和开放数据管理的基本原则。
  3. 社区参与是我们课程组合持续发展的关键,其中包括对EMBL课程和会议计划的重要贡献,以及通过外部资助合作提供的动态、由社区驱动的服务。
  4. 每年大约有500名科学家参加面对面的课程,其中大多数报告称他们继续将所学知识传授给其他人。
  5. 基于网络的按需培训每年约有500000个独特的IP用户。
  6. 我们还为培训师提供支持——在EMBL内部以及通过我们的资助项目和其他合作进行外部支持。
Para_28
  1. 按需培训包含了一个不断增长的精心策划的集合和学习路径,为学员提供了一个针对特定主题结构化的学习方法。
  2. 每门课程都有公开可获取的培训材料集,这极大地提高了现场课程材料的可发现性(尤其是FAIR原则中的可发现性)。
  3. 通过EMBL-EBI按需材料进行自主学习的人可以跟踪他们的进度,记录他们已完成的课程(包括现场课程——课程完成证书现在通过他们的‘我的学习’账户发放),并规划他们未来的学习。
  4. 持有我的学习账户的人现在可以创建并分享课程播放列表。
  5. 这一功能于2023年引入,旨在服务于高等教育,使教学人员能够为学生创建定制化的实践课程集合,并轻松地与学生共享这些课程集合。
Para_29
  1. EMBL-EBI 托管了能力中心——这是一个存储库,其中包含定义特定领域专业人员所需的知识、技能和态度的框架,并将这些框架与相关的培训资源和职业档案相关联。
  2. 在 2023 年,我们开始常规地从 EMBL-EBI 课程链接到相关的能力框架;用户可以选择从能力中心列出的能力开始,并利用这些能力链接到有助于发展该能力的所有 EMBL-EBI 课程。
  3. 或者,用户可以访问任何 EMBL-EBI 课程的"能力"标签来找到所培养的一系列能力列表。
Para_30
  1. EMBL-EBI的课程由广泛的教师团队教授,包括EMBL员工和客座教师成员。
  2. 为了表彰我们的教师团队所做的贡献,我们开发了一个‘认识我们的培训师’页面,介绍每位教师成员,并指出他们参与的课程或课程。
Para_31
  1. 2023年开发并公开提供的新内容包括作为几个社区主导项目的一部分而开发的课程。
  2. 例如,通过ELIXIR-CONVERGE项目开发了实用生物策展课程,作为CINECA项目的一部分创建了一个关于联邦数据分析的自助在线教程。
  3. 此外,还与欧洲血液学协会合作开发了一个新的奖学金计划,以培养计算血液学家。
  4. 除了服务于多样化且不断发展的用户群体外,培训计划还从EMBL的科学计划"分子到生态系统"中汲取灵感。
  5. 突出EMBL新跨学科主题的网络研讨会系列包括一个关于生命分子构建模块的新系列和一个最近完成的关于植物:从数据科学视角的系列

Conclusion

Para_32
  1. EMBL-EBI 数据资源的核心是提交数据库,这些数据库托管和共享分子生物学界实验产生的数据。
  2. 这里描述的资源和发展,以及本期其他地方所提到的,都是建立在这些基础上的。
  3. 最近,全球生物数据联盟认识到了许多这些资源在支撑国际研究中的关键重要性。
  4. 然而,目标是要确保这些独立实体能够与全球合作伙伴合作,为不同尺度和模式下的分子生物学提供全面且综合的视角,以支持对全球挑战产生影响的研究和数据科学。

Data availability

Para_33
  1. 上述所有数据资源均可在 https://www.ebi.ac.uk/services 免费获取和复用。