专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
BioArt  ·  Nat ... ·  2 天前  
BioArt  ·  Nat Cell Biol | ... ·  3 天前  
生信菜鸟团  ·  精准医学 | Nat.Med | ... ·  4 天前  
51好读  ›  专栏  ›  生信菜鸟团

一文极速读懂 Gene Ontology (GO)数据库

生信菜鸟团  · 公众号  · 生物  · 2020-10-28 21:00

正文

目录


一、介绍 1、分子功能(Molecular Function,MF ) 2、细胞组分(Cellular Component ,CC) 3、生物过程(Biological Process ,BP) 二、GO术语的构成 1、基本要素 2、可选要素 三、基因本体论中的关系 1、关系的描述 2、节点的连接 3、GO的主要关系 四、GO 图(有向无环图) 五、GO的动态更新
介绍


网址: http://geneontology.org/

基因本体论(GO)是有关基因功能的描述知识数据库。这些知识既是人类可读的,也是机器可读的,并且是生物医学研究中大规模分子生物学和遗传学实验的计算分析的基础。

在读懂基因本体论(Gene Ontology)前,我们先看看什么是本体论:

本体论(Ontology )是探究世界的本原或基质的哲学理论 。

本体通过对于概念、术语及其相互关系的规范化描述,勾画出某一领域的基本知识体系和描述语言

本体论通常处理的问题:存在哪些本质,如何将这些本质分组,在层次结构内关联以及如何根据相似性和差异进行细分 。

基因本体论(Gene Ontology)包含生物学领域知识体系本质的表示形式,本体通常由一组类(或术语或概念)组成,它们之间具有关系。基因本体论(GO)从三个方面(GO domains)描述了我们对生物学领域的了解:

分子功能(Molecular Function,MF )

单个的基因产物(包括蛋白质和RNA)或多个基因产物的复合物在分子水平上的活动 ,比如“催化”,“转运”

需要注意,这里的描述只表示活动,而不指定执行功能的实体(分子或复合物),动作发生的地点,时间或背景

广义上的例子是催化活性和转运蛋白活性。具体的例子是腺苷酸环化酶活性或Toll样受体结合

为避免基因产物名称与其分子功能之间的混淆,GO分子功能通常附加“活性(activity)”一词。比如,蛋白激酶(protein kinase)具有GO分子功能:蛋白激酶活性( protein kinase activity)

2、细胞组分(Cellular Component ,CC)

基因产物在执行功能时所处的细胞结构位置 ,比如在线粒体,核糖体

需要注意:细胞组分是细胞解刨结构,不指代过程

3、生物过程(Biological Process ,BP)

通过多种分子活动完成的生物学过程

广义上的例子是DNA修复或信号转导。更加具体的例子是嘧啶核苷生物合成过程或葡萄糖跨膜转运

需要注意:生物学过程不等同于通路。目前,GO没有表示完整的通路信息所需的动力学或依赖性的描述信息

理解了上述的概念,现在举个例子,如果站在基因本体论GO的角度来解释一个基因的话:

基因产物:细胞色素C(cytochrome c)

分子功能:氧化还原酶活性

细胞组分:线粒体基质

生物过程:氧化磷酸化

GO术语的构成


1、基本要素
  • 唯一标识符(GO ID)和名称 :比如GO:0005739,GO:1904659,GO:0016597和线粒体,葡萄糖跨膜转运,氨基酸结合

  • 方面 :该术语属于细胞成分,生物过程或分子功能的哪一个。

  • 定义 :术语的文字描述,以及信息来源的引用。

  • 关系 :该术语与本体中其他术语的关系。例如,葡萄糖跨膜转运(GO:1904659)是单糖转运(GO:0015749)。

2、可选要素
  • 次级ID(备用ID) :当两个或多个术语的含义相同并且合并为一个术语时,就会出现辅助ID。所有术语ID都会保留下来,因此不会丢失任何信息(例如,合并ID的注释)。

  • 同义字 :含义与术语名称紧密相关的替代字词或短语,表示名称与同义词范围所赋予的同义词之间的关系。GO同义词的范围是:

    • 相同 Exact :术语名称可以互换;例如 鸟氨酸循环是尿素循环的确切同义词

    • 广义 Broad :同义词比术语名称更广泛;例如 细胞分裂是胞质分裂的广义同义词

    • 狭义 Narrow :同义词比术语名称更具体或更精确;例如 用光裂酶修复嘧啶二聚体是光反应性修复的狭义同义词

    • 相关 Related :术语以不精确的方式相关;例如 细胞色素bc1复合体是泛醇-细胞色素c还原酶活性的相关同义词毒力是发病机理的相关同义词

自定义同义词类型也用于本体中。例如,许多同义词被指定为系统同义词。此类型的同义词是术语名称的确切同义词。

基因本体论中的关系


GO以图的形式构建,术语作为同种的节点,术语间的关系(对象属性)作为连接。

1、关系的描述
  • 节点 node :是指GO术语

  • 父级 parent :是指更靠近图的根的节点

  • 子级 child :是指更靠近叶节点的节点;对于is_a和part_of关系,父级是一个更宽泛的GO术语,而子级是一个更具体的术语

  • 箭头 arrowhead :指示关系的方向

  • 虚线 Dotted lines :表示推断的关系,即本体中未明确说明的关系

2、节点的连接

GO图中的节点与其他节点可以具有任意数量和类型的关系, 就像层次结构,例如,家谱或一个物种的分类法

一个节点可能与多个子节点(更特定的节点)具有连接,也可以具有多个父节点(较宽的节点)

利用关系与关系间的连接可以推断相应的分组注释,节点间关系的推断,这个会在后面详细研究:

上图表示:A is a B,B is part of C,所以可以推断 A is part of C

节点间总体与部分关系:

一个节点可能与一个节点有一部分关系。下图说明了这一点:

上图: mitochondrion 是两个节点的父节点:it is an organelle and it is part of the cytoplasm ; organelle 有两个子节点: mitochondrion is an organelle, and organelle membrane is part of organelle

3、GO的主要关系

我们将上面的关系图简化表示为 箭头导向性图 ,这是图中常见的关系表示:

缩写 关系 符号 示例
i is a A B 有丝分裂细胞周期 is a 细胞周期
P part of A B 线粒体内膜 part of 线粒体
hP has part A B 受体酪氨酸激酶活性 has part 激酶活性
R regulates A B 抗凋亡 regulates 细胞程序性死亡
R+ positively regulates A B 减数分裂激活 positively regulates 减数分裂
R- negatively regulates A B 脊髓平滑信号通路 negatively regulates 脊髓腹侧

接下我们详细看看GO是怎样来描述这几种关系的:

1. is a

如果我们说 A is a B ,则意味着节点A是节点B的子类型。例如,有丝分裂细胞周期是细胞周期,或者裂解酶活性是催化活性。

应该注意的是,a并不代表是实例。从本体论上来说,一个实例是某个事物的具体示例。例如 猫是哺乳动物,但加菲猫是猫的实例,而不是猫的亚型。GO中的术语表示实体或现象的类别,而不是特定的表现形式(或实例)。但是,如果我们知道猫是哺乳动物,则可以说猫的每个实例都是哺乳动物。

使用 is a 对批注进行分组是 安全的 。例如,如果将基因产物X注释为具有酪氨酸激酶活性,并且本体论证明酪氨酸激酶活性是激酶活性的一种(类型),那么我们可以安全地得出结论,基因产物X具有激酶活性。

利用上面得到结论,我们可以将 is a 关系和其他关系类型结合来推断,下图表示了可以推断的关系:

2. part of

关系的一部分用于表示整个部分的关系。 part of 只有当B一定是A的一部分时,才会在A和B之间部分关系:无论B存在于何处,它都是A的一部分,B的存在意味着A的存在。但是,考虑到A的出现,我们不能肯定地说B的存在。







请到「今天看啥」查看全文