专栏名称: 赛先生
赛先生由百人传媒投资和创办。文小刚、刘克峰、颜宁三位国际著名科学家担任主编,告诉你正在发生的科学。 上帝忘了给我们翅膀,于是,科学家带领我们飞翔。
目录
相关文章推荐
果壳  ·  千万别天天用冲牙器,真怕你...... ·  15 小时前  
科普中国  ·  依靠AI生成的内容,能够随心使用吗? ·  20 小时前  
赛先生  ·  我们都是基因的马赛克 ·  5 天前  
51好读  ›  专栏  ›  赛先生

RNA好累:可……

赛先生  · 公众号  · 科学  · 2016-11-01 07:16

正文

近些年来,某些之前被认为不能编码蛋白质的RNA被证实具备编码能力,其编码产生的微肽的功能也不容小觑。究竟是哪些原因导致这些编码RNA被错误归类?哪些技术发现了“冒牌”非编码RNA?重回人们视野的它们行使着何种生物学功能?本文综合了最近几项研究,讲述研究者们如何在非编码RNA的研究领地里淘金一般搜寻隐匿的编码RNA。
编译

李娟


细胞核内的DNA转录生成各类RNA,其中mRNA(messenger RNA, 信使RNA)翻译生成蛋白质, ncRNA(noncoding RNA,非编码RNA)不具备编码能力,不能被翻译成蛋白质。(图片来源:网络)

2002年,德国科隆的研究人员发现了某一非编码 RNA 实际上是能编码的 信使 RNA(mRNA)。这条 RNA 679个核苷酸,因其长度超过200个核苷酸,之前被列为 长非编码RNA(lncRNA) 。转录该 RNA 的基因是 early nodulin 40(ENOD40) ,它的两个 开放阅读框(ORFs,Open Reading Frames) 能够分别编码12和24个氨基酸的微肽。豆类植物样本的研究证实了这些微肽在植物中确实存在,并且与蔗糖合成酶有互作关系。


mRNA(messenger RNA, 信使 RNA)翻译成蛋白质的过程简图。 如今已发现某些被列为非编码 RNA 的序列内也含有开放阅读框,也具备编码翻译成蛋白质的功能。(图片来源:Cell)

五年后,日本的研究人员在果蝇中发现了另一个含 ORF、“冒充” lncRNA 的 mRNA。在这项研究中,研究人员通过抑制每个 lncRNAs 的转录本表达来分析其在果蝇胚胎中的功能。其中只有一个表现出明显的表型,缺失这种 lncRNA 的果蝇胚胎缺少特定的角质层特征,这使得它们产生了如稻谷粒样的光滑外观,因而该 RNA 被命名为“polished rice”( pri )。 pri 基因能编码四种微肽,其中三种含11个氨基酸,一种含32个氨基酸,它们对激活发育相关的某一关键转录因子至关重要。

此后,又有一些 lncRNAs 加入到 mRNA 的队伍中,它们的 长度短于300个核苷酸,且 含有编码微肽的 较短开放阅读框(short ORFs, sORFs) 。数据库里已有记录的 lncRNAs 数目众多,其中大部分的功能都未知,有很高的机率发现其他具备微肽编码功能的 RNA。搜寻这些微小宝藏的工作已经开始,但却极富有挑战性,毕竟它们之前被忽略了这么久也是有原因的。

被忽略的开放阅读框

90年代末到21世纪,随着不同物种基因组测序的陆续完成及相关数据库的完善,新基因及相关 mRNA 的搜寻工作也随之展开。研究人员用计算机辅助的快捷方法对数百万甚至上亿的核苷酸进行分析,以便明确基因和 mRNA 的序列特征,例如启动子区、外显子/内含子的剪接位点、开放阅读框等。

位于起始密码子和终止密码子之间能最终编码蛋白质的基因序列即开放阅读框。(图片来源:BRYAN SATALINO)

ORF 可存在于几乎任何 RNA 序列中,但许多并不编码实际的蛋白质。由于 ORF 编码蛋白质的机率随其长度增加而增加,因此之前大部分搜寻 ORF 的算法限于300个核苷酸以上,即至少翻译100个氨基酸。这使研究人员能够过滤掉那些随机存在毫无意义的 ORF。然而,由于这些算法排除了长度小于300个核苷酸的开放阅读框,不可避免地遗漏了微肽编码序列, 它们 作为“算法产生的垃圾”被筛除在外而惨遭遗忘。

除了算法规则和人为疏忽,还有其他技术原因导致这种情况。比如,利用电泳分离不同大小的肽段往往意味着会丢失微肽。因为跑蛋白质凝胶电泳时,微肽很容易从凝胶底部跑出去。蛋白质质谱技术对微肽的确定也存在问题,因为质谱实验步骤中有一步是洗脱,只有较大的蛋白质被保留了下来用做后续分析。

比起序列更长的 ORF,小鼠、果蝇和鱼等模式动物器官中较短的 ORF在随机突变的筛选中很难被发现,意味着对它们功能的揭示也更困难。另外,许多重要蛋白质是基于不同物种间的保守性来确定的,ORF 越短就越难被发现,与其他物种基因组进行比对、分析其是否保守也会越困难。

不过,随着对基因组中更多 lncRNAs 功能分析的进行,编码微肽的 IncRNA 不断地被发现。 例如,2014年2月,哈佛大学的研 究人员在斑马鱼中发现了一个 lncRNA,其编码的微肽有58个氨基酸,它是斑马鱼胚胎早期发育相关的细胞移动所必需的一类信号蛋白。另一项研究在小鼠胚胎心脏和骨骼肌里发现了多个候选目标,其中有一个序列高度保守的 IncRNAs,在其序列保守区既有起始密码子又有终止密码子,能编码46个氨基酸。研究者称之为 myoregulin,它是参与调控肌肉紧张度的一个重要的钙泵调节器。

诸如此类多年来躲在雷达下的微肽 就像金矿一样存在着,等待我们积极地去挖掘。

寻找隐藏的小肽

研究者们开展了大量的 RNA 测序去识别 sORFs,并用质谱寻找可能的肽段。但是这项技术每次只能分析少量的 sORFs。直到2009年,一种叫做 核糖体图谱分析(ribosome profiling) 的新方法被开发出来 ,结合核糖体相关 RNA 的深度测序技术,能够快速地在全基因组水平对不同大小的开放阅读框进行大规模分析。

这项技术是由 核糖体足迹分析(ribosome footprints) 方法发展而来,该方法是明确与蛋白质翻译机器相关的 RNA 的最直接的方法。 在核糖体足迹分析中,研究人员首先将核糖体相关 RNA 分离出来,用核酸酶消化掉不被核糖体保护的 RNA,分离回收被核糖体保护的 RNA,然后对这部分 RNA 短片段测序并进行后续分析。由于非编码 RNA 有时也会与核糖体有关联,该方法仍需要质谱技术验证所得 RNA 产生的蛋白质在细胞中是否存在。

用于搜寻与蛋白质翻译有关的编码 RNA 的核糖体足迹分析方法。(图片来源:BRYAN SATALINO)

之前的核糖体足迹分析方法只能分析单个特定的转录翻译信息,无法用于检测细胞内发生的所有事件。当新一代测序技术出现之后,才得以一次性读取成百上千的“足迹”,由核糖体足迹分析技术改进成的核糖体图谱分析技术,能最大程度地获得整个转录组的翻译信息。

Ingolia 等人设计的核糖体图谱分析技术的主要步骤。图片来源:WIREs RNA

2011年,Ingolia 等人报道了小鼠胚胎干细胞基因组中,非编码区转录出的大多数 lncRNAs 实际上与核糖体有关联。这篇论文是一个里程碑,它证明了编码区以外也存在很多蛋白质翻译事件。

编码微肽的 sORFs 相关转录组的确存在。除此之外,他们还发现细胞核内某些有明确功能的 lncRNAs 也与核糖体有关联。例如,端粒酶 RNA 作为经典 lncRNA,其实是端粒 DNA 复制的模板;参与 RNA 剪接的小核 RNA,在核糖体图谱分析中显示出了高度的翻译特性。需要注意的是, 占用核糖体(ribosome occupancy)的 RNA 并不表示就一定真正的翻译成蛋白质。


单从核糖体占用来看,并不足以区分转录本为编码 RNA 还是非编码 RNA。(图片来源:Cell)

与核糖体关联的某些 RNA 可能仅仅参与翻译调控,与核糖体也可能只是随机互作,这种互作关系甚至会产生微小的非功能肽,或因其不稳定而被迅速降解。为了辨别核糖体图谱分析得到的真正翻译事件, 核糖体释放分数(ribosome release score) 作为度量标准被提出来,该标准 基于核糖体结合的 RNA 片段在全长 mRNA 分子上的分布状态 当核糖体沿着 ORF 翻译至终止密码子时,核糖体与转录本的关系也随之终止,它们会从 mRNA 上释放下来。 翻译成蛋白质的 RNA 编码区相比下游非翻译区,应显示出更大比例的核糖体足迹片段,意味着终止密码子之后的 RNA 片段与核糖体的关联在核糖体图谱中会有显著下降,而对于经典的非编码 RNA 则不是这样。


核糖体释放分数简图。(图片来源:Guttman lab)

核糖体释放分数评估了与核糖体结合的RNA片段沿整个 RNA 分子的分布情况。 真正编码的 RNA 的 ORF 应该比终止密码子后的序列有更大比例的核糖体关联区域。(图片来源:BRYAN SATALINO)

使用了该标准的一项研究发现, 绝大多数基因间的 lncRNAs 确实是不编码的,但有5%左右的 lncRNAs 的核糖体释放分数与编码蛋白的转录本类似。 对于数以万计的 lncRNAs 来说,5%是一个庞大的数字,暗示着可能会有数量庞大的微肽存在。

为了证实 sORF 的翻译事件并明确其产生的微肽,基于核糖体足迹图谱、序列保守性、同义突变频率及其他特征的研究,研究者们研发出了新的度量标准和算法(比如:Fragment Length Organization Similarity Score (FLOSS),Phylogenetic Conservation Score of a sORF (PhyloCSF))。2015年11月研究者们建立了名为 sORFs.org 的 sORF 数据库,用于积累和搜集有关 sORFs 及其翻译能力的数据。

现在,数据库里有小鼠、果蝇和人类核糖体图谱分析研究所确定的全部 sORFs,目前存有高达266342个 sORFs,但各类筛选指标能将这个庞大的列表进一步缩小。经过严格筛 选,来自人类的数据列表已降至约400个强候选 sORFs。 同时,研究者们系统地开展了蛋白质质谱实验,用以明确算法得到的微肽是否真的在细胞中存在。

一旦确定了某个新的微肽,就要用分子生物学实验探索其功能。这个过程进展较慢。不过研究者们已经明确了几个新的微肽的功能。2016年1月,研究者报道了一个 lncRNA 编码的被称作 dwarf open reading frame(DWORF)的微肽,它是 含有34个氨基酸的 肌肉特异性微肽, 在小鼠心脏中大量表达,能够调节肌肉收缩,但在缺血人体心脏组织中的表达被抑制,提示可能与心脏衰竭有关。另一项新发现是一类感染人类巨细胞的病毒 lncRNA编码的微肽,它能在以前感染过的患者中引起T细胞免疫应答,提示这类微肽很可能具有免疫原性,也说明了微肽在某些疾病发生过程中的重要性。

随着研究人员对基因组小片段进行更仔细地梳理,更多微肽的生物学功能将会被发现。如你所见, 它们可能因短小的序列而被忽视,其 sORFs 也可能被埋在统计学噪声里,而翻译微肽的 RNA 也可能被错误归类,但这都并不妨碍它们扮演重要角色,行使着举足轻重的基本生物学功能。

参考文献

1. Ruth Williams, Noncoding RNAs Not So Noncoding. http://www.the-scientist.com/?articles.view/articleNo/46150/title/Noncoding-RNAs-Not-So-Noncoding/

2. Ruth Williams, Finding Mislabeled Noncoding RNAs. http://www.the-scientist.com/?articles.view/articleNo/46203/title/Finding-Mislabeled-Noncoding-RNAs/

3. M. Guttman et al., Ribosome profiling provides evidence that large noncoding RNAs do not encode proteins. Cell, 154:240-51, 2013.

4. Audrey M. Michel and Pavel V. Baranov. Ribosome pro?ling: a Hi-Def monitor for protein synthesis at the genome-wide scale. WIREs RNA, 4:473–490, 2013.

5. E. N. Olson et al., A peptide encoded by a transcript annotated as long noncoding RNA enhances SERCA activity in muscle. Science, 351 (6270): 271, 2016.


延伸阅读

不是垃圾是宝藏:非编码RNA的摩登时代







请到「今天看啥」查看全文