作者 | NIRO
编辑 | 澹泊研究僧
来源 | NIRO(ID:NIRO-keyanmiao)
✪ 原
创内容已申请版权,抄袭搬运追究法律责任
在基因组学和分子生物学的研究中,NCBI(美国国家生物技术信息中心)是一个不可或缺的数据库资源。在浏览NCBI中的基因序列时,经常会遇到
“ORF”
和
“CDS”
这两个术语。它们都与基因的编码区域有关,但在具体含义和用法上存在一定的差异。
1. ORF(Open Reading Frame,开放阅读框)
ORF
是指一段DNA或RNA序列中,从起始密码子(通常是AUG)到终止密码(UAA、UAG、UGA)之间的连续非中断的编码区域。在基因预测和基因组注释的过程中,ORF被用作一个潜在蛋白质编码基因的指示器。
它通常表示一个理论上的编码区,可能并不完全对应真实的编码序列。
图片来源: 网络
(1) 定义与特性:
ORF是一段能够被3整除的序列,包含起始密码子和终止密码子。它可以是DNA或RNA序列中的一部分,但通常不包含终止子。
ORF是基因序列中的潜在编码区,用于寻找可能的蛋白质编码基因。
(2) 与基因的关系:
ORF是完整基因序列的一部分,但预测的ORF并不一定是基因。一个完整基因包括ORF序列以及非编码序列(如启动子、终止子、内含子等)。
2. CDS(Coding Sequence,编码序列)
CDS
是指已知或预测的编码蛋白质的序列,它通常是指从起始密码子到终止密码子之间的实际已知或预测的编码区域。
与ORF相比,CDS更侧重于描述已知的编码蛋白质的序列,与实际的蛋白质编码更为接近。
图片来源: 网络
(1) 定义与特性:
CDS是成熟mRNA中可以被翻译为蛋白质的编码序列区域。
它必定是一个或多个ORF的一部分,但并非所有ORF都是CDS。CDS与蛋白质的密码子一一对应,是基因表达为蛋白质的直接模板。
(2) 在NCBI中的应用:
在NCBI中查找基因序列时,
CDS信息通常用于确定基因的编码区域。
CDS序列可以用于设计PCR引物、进行基因克隆和表达分析等研究。
3. ORF与CDS的区别与联系
(1) ORF与CDS的区别:
A. 含义不同:
ORF是
理论
上的编码区,而CDS是
已知
的编码蛋白质的序列。
B. 来源不同:
ORF是基因预测的结果,可能与真实情况有所差异;而CDS是检查cDNA后得到的编码组合序列,更接近实际情况。
C. 应用不同:
ORF通常用于基因预测和基因组注释;而CDS则更多地用于描述已知的编码蛋白质的序列,并指导后续的实验研究。
图片来源: 网络
(2) ORF与CDS的联系:
CDS必定是一个或多个ORF的一部分。
在某些情况下,预测的ORF可能恰好与实际的CDS一致,但这并不是普遍现象。ORF和CDS都是基因序列中的重要组成部分,它们共同构成了基因的编码区域。
ORF
有在线软件可以预测一段序列中是否存在ORF。其网址为
ORF Finder (washington.edu)
。
CDS
的注释通常是通过一系列的生物信息学分析和实验验证来完成的。下面是一般情况下CDS的注释过程:
A. 基因预测:
首先,进行
基因预测分析
,以确定基因组中的潜在基因位置。这可以通过计算机算法来预测具有典型基因结构特征(如起始密码子、终止密码子、外显子等)的区域。
图片来源: 网络
B. 同源比对:
将预测的基因序列与已知的蛋白质序列数据库进行比对,以寻找与已知蛋白质序列相似的区域
。这有助于确定预测的基因序列是否具有编码蛋白质的潜力。
图片来源: 网络
C. 基因结构预测:
通过结合计算机算法和实验数据,预测基因的结构,包括起始密码子、外显子、内含子和终止密码子的位置。
图片来源: 网络
D. CDS的确定:
在基因的结构预测确定后,CDS即可被注释出来。
CDS通常是指从起始密码子到终止密码子的区域,这是编码蛋白质的序列
。
图片来源: 网络
E. 实验验证:
最后,通过实验验证(例如转录组学、蛋白质组学等技术),来
验证CDS的确是被转录和翻译成蛋白质的
。整个过程需要结合多种生物信息学方法和实验验证来完成,以确保CDS的注释准确性和可靠性。
图片来源: 网络
4. 结论
在NCBI中查找基因序列时,了解ORF和CDS的概念及其区别对于准确解读基因信息至关重要。
ORF作为潜在蛋白质编码基因的指示器,在基因预测和基因组注释中发挥着重要作用;而CDS则提供了已知编码蛋白质的序列信息,
为后续的基因表达分析和蛋白质研究提供了有力支持。