上一期介绍(罗列)了部分lncRNA数据库,收到了一个非常好的问题,我研究的物种没有lncRNA数据库,我该怎么办?
没有lncRNA数据库,那就建一个吧。嗯,这期我们就来聊聊一个轻量级的lncRNA数据库都做了哪些工作。
这是一个从RNA-seq数据中鉴定lncRNA的一般思路图(图片来源参考文献1)
我们大约需要做以下几步工作:
1,准备样品,准备钱,找公司测序。要想鉴定到足够多的lncRNA,还是选择去核糖体建库 (Ribo-zero)方式比较好,虽然这个比polyA建库要贵上不少,但是测的全(都怪那帮lncRNA不爱长A尾...)。当然这里的测序是指二代测序,要测三代?土豪随意(ps,目前国内的公司三代建库貌似都还只能用polyA)。
2,拿到数据,做转录本的拼接,也就是上图中的从RNA-seq data 到 Transcript models。这里头又因有无参考基因组,可分为两个主要的策略,相关的资料很多,就不展开说了。
3,过滤低质量的转录本(可考虑过滤掉表达值过低的一些转录本)
4,去除已经注释了的编码蛋白的转录本(如果有注释的话)
5,去除长度小于200bp的转录本。
6,利用lncRNA 识别工具对剩余转录本进行分类。能够进行这个工作的工具目前已有不少,如我们公众号介绍过的PLEK 和CNCI,就是很好用的工具。
7,对拿到的lncRNA 做注释。包括lncRNA的分类,miRNA靶点预测,甚至lncRNA 的功能预测等。
8,建立数据库网站,做基因组浏览等各种展示功能(如果你真的要做数据库的话~~; 1-6是从RNA-seq数据中鉴定新转录本的一般流程)
嗯,其实你只是想看看你做的lncRNA在别的数据库里面有没有记录,或者那些明星lncRNA在你的物种里面是不是存在?
那你要做的事情就是lncRNA的同源搜索啦。试试BLAST吧,并且记得祈祷你研究的lncRNA在序列上是保守的。毕竟lncRNA的保守性只比随机序列略高。
实际上,由于lncRNA的序列保守性不高,而表达的位置保守性较高,因此通过共线性去做lncRNA的同源搜索是一个可行的方式。也有报道说部分lncRNA拥有一些保守的结构域,那么通过类似于hmmer的软件进行二级结构的搜索也可能作为lncRNA注释的一种手段。但是,目前尚无很好的lncRNA同源搜索工具。如果你发现有,请别忘了告诉我。
PLEK: PLEK:区分mRNA和lncRNA的工具