专栏名称: 生信百科
依托高校科研平台,面向生物信息科研工作者。生物信息学习资料;常见数据分析技巧、流程;公共数据库分享;科研思路分享;
目录
相关文章推荐
医学美图  ·  一图读懂合集 ·  19 小时前  
伊洛  ·  北京消费者信心指数 ·  昨天  
火石创造  ·  开工大吉 ·  昨天  
医学影像沙龙  ·  心血管磁共振的CMR解读及诊断思路 ·  2 天前  
丁香园  ·  维生素 C + 维生素 B6,竟出大问题 ·  4 天前  
51好读  ›  专栏  ›  生信百科

我研究的物种没有lncRNA数据库,我该怎么办?

生信百科  · 公众号  · 医学  · 2017-09-09 07:00

正文

上一期介绍(罗列)了部分lncRNA数据库,收到了一个非常好的问题,我研究的物种没有lncRNA数据库,我该怎么办?

没有lncRNA数据库,那就建一个吧。嗯,这期我们就来聊聊一个轻量级的lncRNA数据库都做了哪些工作。

这是一个从RNA-seq数据中鉴定lncRNA的一般思路图(图片来源参考文献1)

我们大约需要做以下几步工作:

1,准备样品,准备钱,找公司测序。要想鉴定到足够多的lncRNA,还是选择去核糖体建库 (Ribo-zero)方式比较好,虽然这个比polyA建库要贵上不少,但是测的全(都怪那帮lncRNA不爱长A尾...)。当然这里的测序是指二代测序,要测三代?土豪随意(ps,目前国内的公司三代建库貌似都还只能用polyA)。

2,拿到数据,做转录本的拼接,也就是上图中的从RNA-seq data 到 Transcript models。这里头又因有无参考基因组,可分为两个主要的策略,相关的资料很多,就不展开说了。

3,过滤低质量的转录本(可考虑过滤掉表达值过低的一些转录本)

4,去除已经注释了的编码蛋白的转录本(如果有注释的话)

5,去除长度小于200bp的转录本。

6,利用lncRNA 识别工具对剩余转录本进行分类。能够进行这个工作的工具目前已有不少,如我们公众号介绍过的PLEK 和CNCI,就是很好用的工具。

7,对拿到的lncRNA 做注释。包括lncRNA的分类,miRNA靶点预测,甚至lncRNA 的功能预测等。

8,建立数据库网站,做基因组浏览等各种展示功能(如果你真的要做数据库的话~~; 1-6是从RNA-seq数据中鉴定新转录本的一般流程)


嗯,其实你只是想看看你做的lncRNA在别的数据库里面有没有记录,或者那些明星lncRNA在你的物种里面是不是存在?

那你要做的事情就是lncRNA的同源搜索啦。试试BLAST吧,并且记得祈祷你研究的lncRNA在序列上是保守的。毕竟lncRNA的保守性只比随机序列略高。

实际上,由于lncRNA的序列保守性不高,而表达的位置保守性较高,因此通过共线性去做lncRNA的同源搜索是一个可行的方式。也有报道说部分lncRNA拥有一些保守的结构域,那么通过类似于hmmer的软件进行二级结构的搜索也可能作为lncRNA注释的一种手段。但是,目前尚无很好的lncRNA同源搜索工具。如果你发现有,请别忘了告诉我。


PLEK: PLEK:区分mRNA和lncRNA的工具





请到「今天看啥」查看全文

推荐文章
医学美图  ·  一图读懂合集
19 小时前
伊洛  ·  北京消费者信心指数
昨天
火石创造  ·  开工大吉
昨天
医学影像沙龙  ·  心血管磁共振的CMR解读及诊断思路
2 天前
三国演义  ·  潘金莲为何勾引不到武松!
7 年前
最搞笑笑话王  ·  小媳妇上厕所,不笑你打我!
7 年前