专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
生物学霸  ·  1 ... ·  11 小时前  
生信菜鸟团  ·  cellranger ... ·  昨天  
BioArt  ·  Nature | ... ·  2 天前  
生物探索  ·  Nature Methods | ... ·  3 天前  
51好读  ›  专栏  ›  生信菜鸟团

2025 的 KEGG 数据库都更新了什么?

生信菜鸟团  · 公众号  · 生物  · 2025-03-13 09:16

正文

Basic Information

  • 英文标题:KEGG: biological systems database as a model of the real world
  • 中文标题:KEGG:生物系统数据库作为真实世界的模型
  • 发表日期:17 October 2024
  • 文章类型:Database Issue
  • 所属期刊:Nucleic Acids Research
  • 文章作者:Minoru Kanehisa | Mari Ishiguro-Watanabe
  • 文章链接:https://academic.oup.com/nar/article/53/D1/D672/7824602

Abstract

  1. KEGG(https://www.kegg.jp/)是一个数据库资源,用于表示和分析生物系统。
  2. 通路图是KEGG中的主要数据集,代表细胞和有机体在分子相互作用和反应网络方面的系统功能。
  3. KEGG同源性(KO)系统是一种机制,用于将基因和蛋白质与通路图及其他分子网络联系起来。
  4. 每个KO都是一个通用的基因标识符,每个通路图都是由KO节点组成的网络。
  5. 这种架构使KEGG通路映射能够揭示分配给基因组和元基因组的KO的系统特性。
  6. KO的其他角色包括通过分类学映射来表征基因组群中的保守基因和基因单元。
  7. 已经开发了一种新工具,用于识别染色体中的保守基因顺序,在该工具中基因顺序被视为KO序列。
  8. 此外,从病毒蛋白计算生成了一种新的数据集称为VOG(病毒同源性组),并扩展到细胞生物的蛋白质,允许基因顺序作为VOG序列进行比较。
  9. 结合这些数据集和分析工具,正在开发新型通路图,以呈现涉及多个基因组群的生物过程的全局视图。

Introduction

Para_01
  1. 自1995年以来,KEGG数据库(1,2)作为生物系统的计算机模型被开发出来,例如细胞和有机体,通过捕捉和组织文献中报道的知识。
  2. KEGG模型由基因和分子的分子构建块、相互作用和反应的分子网络以及从构建块到网络的链接机制组成。
  3. 这些实现为一系列数据库。
  4. 最显著的是,基因组中的基因(GENES数据库)通过KEGG同源性(KO)系统(KO数据库)与KEGG通路图(PATHWAY数据库)相关联。
  5. 通路图和其他KEGG分子网络使用KEG同源性的功能同源物作为网络节点,以通用的方式开发,以便将特定有机体中的实验知识推广到其他有机体。
  6. 每个KO都是根据实验证据手动定义的,并且每个KO的分组既手动又通过计算扩展,以涵盖一组完整的基因组,称为KEGG有机体。
  7. 因此,一旦任何基因组中的基因分配了KO标识符(K编号),特定有机体版本的分子网络可以重建,从而揭示隐藏在基因组中的细胞和有机体层面的特征。
Para_02
  1. 随着基因敲除(KOs)技术的不断进步和KEGG生物体数量的增加,KEGG模型可能有助于分析地球环境下的生物圈这一开放系统。
  2. 我们最近发布了一张简单的氮循环路径图(map01310),该图展示了不同化学转化过程中不同生物群组的作用。
  3. 生物圈分析的另一个方面是细胞生物与病毒的共同进化。
  4. 我们开发了一个通过计算生成的病毒同源蛋白组(VOGs)数据集,其中包含了病毒蛋白质中的同源关系。
  5. 这些数据集随后被扩展到细胞生物的蛋白质上,以便描述病毒-生物关系中的保守基因和保守基因簇。
  6. 本文报告了过去两年中的这些以及其他一些发展。

Overview of KEGG

Database

数据库

Para_03
  1. KEGG(https://www.kegg.jp)是一个用于表示和分析生物系统的数据库资源。
  2. 如图1所示,它由十六个手动维护的数据库组成,这些数据库代表了(i)系统信息类别中的分子网络系统,(ii)基因组信息类别中的遗传构建块,(iii)化学信息类别中的化学构建块以及(iv)健康信息类别中的疾病相关扰动系统。
  3. 每个数据对象都通过KEGG标识符(kid)进行识别,该标识符有两种形式。
  4. 一种简单的形式用于KEGG原始的数据集,由一个与数据集相关的前缀后跟一个五位数组成。
  5. 一种组合的形式用于从外部引入的数据集,由数据集名称和条目名称通过冒号分隔组成。
  6. 对于系统信息类别中的三个数据库PATHWAY、BRITE和MODULE,路径图的分子网络对象、Brite层次结构和KEGG模块从手动创建的参考对象扩展到计算生成的特定于生物体的对象,例如从map01100(参考代谢途径)到hsa01100(人类代谢途径)。

图片说明

◉ KEGG 包含存储在四个类别中的十六个数据库的各种数据对象。 ◉ 每个对象(数据库条目)由 KEGG 标识符(kid)识别,如这里所定义。 ◉ 它有两种形式:一种简单的形式,由与数据集相关的前缀后跟一个五位数的数字组成(例如 map01310), ◉ 或者一种组合的形式,由数据集名称和条目名称用冒号分隔(例如 hsa:116337)。

Para_04
  1. KEGG数据库内部存储为Oracle关系数据库。
  2. 对于外部服务,生成了平面文件以便由DBGET系统处理(4),该系统已被用作KEGG中的基本检索系统。
  3. 然而,目前其搜索功能正在被SQLite接口取代,DBGET主要被用于通过KEGG标识符检索和查看数据。
  4. DBGET查看器展示了KEGG中所有数据对象的平面文件视图,并且可以通过在基准URL后附加/entry/kid来调用,如表1所示。
  5. 为五种类型的分子网络对象(表1)提供了专门的查看器,其中包括被视为基因一维网络的基因组。
  6. 其中,路径查看器、Brite查看器和基因组浏览器是称为KEGG Web Apps的JavaScript应用程序(表2),许多操作都在客户端执行。

- 图片说明

◉ 表1. KEGG 数据查看器

image
image

- 图片说明

◉ 表2. KEGG分析工具

image
image

Analysis tools

分析工具

Para_05
  1. KEGG 分析工具已经扩展和重组,如表 2 所示。
  2. KEGG Mapper 是一系列 KEGG 映射工具的集合,它最初是 KEGG 项目开始时的一个简单工具,用于搜索和着色路径图,并且多年来得到了显著扩展(5,6)。
  3. 最近,为了分析质谱数据,添加了一个特殊用途的搜索工具叫 MWsearch。
  4. 随着 Pathway 视图器和 Brite 视图器(KEGG Web 应用程序)的可用性,它们能够在客户端执行映射操作(6),KEGG Mapper 已经与这些视图器集成,尽可能地将服务器端数据库搜索操作和客户端着色和其他映射操作分开。
Para_06
  1. KEGG语法(表2)是现有工具的新名称,包括直系同源表和分类映射工具,并增加了一个新的基因顺序分析工具。截至2024年9月,GENOME数据库包含了超过1万个细胞生物(KEGG生物体)的完整基因组,覆盖了广泛的分类分布。
  2. 相应的GENES数据库包含了超过5000万个基因,KO分配率约为53%。相比之下,病毒的KO分配率非常低,只有大约8%。为了补充KOs,根据下面描述的方法,从67万个病毒蛋白中计算生成了病毒直系同源群(VOGs)。因此,KEGG语法允许在分类分组的背景下分析保守基因(KOs)、形成功能单元的保守基因集(KEGG模块)以及保守的基因顺序(保守的共线性),这可能有助于更好地理解生物圈的遗传构建模块。

New developments in KEGG

VOG (virus ortholog group)

病毒同源组(VOG)

Para_07
  1. VOG(病毒同源群)是一个使用已经建立的用于KO注释的相同资源计算生成的数据集。
  2. KEGG中的所有基因组对都会通过SSEARCH程序进行SSDB(序列相似性数据库)计算,针对氨基酸序列(蛋白质编码基因)和核苷酸序列(RNA基因)。
  3. 对于每个基因,都会生成一个基于物种的最接近相似邻居列表,并以表格形式显示,称为GFIT表,这是KO注释的基本数据集。
  4. 在SSDB计算中,vg(病毒基因)类别被视为单一物种,病毒基因之间的相似关系在旁系GFIT表中显示。
  5. 相似性的度量由修改后的同一性得分定义,该得分考虑了重叠区域(由SSEARCH给出的对齐区域)的权重min(1, overlap*2/(aalen1 + aalen2))。
  6. 所有病毒蛋白的旁系GFIT表按表格大小降序处理,并通过一种启发式方法有效地执行单链聚类生成VOG。
  7. 实际上,生成了三个VOG数据集,修改后的同一性阈值分别为30%、50%和70%,每个VOG都有一个六位数的编号标识符,分别以3、5和7开头。






请到「今天看啥」查看全文