专栏名称: 生信媛
生信媛,从1人分享,到8人同行。坚持分享生信入门方法与课程,持续记录生信相关的分析pipeline, python和R在生物信息学中的利用。内容涵盖服务器使用、基因组转录组分析以及群体遗传。
目录
相关文章推荐
生信菜鸟团  ·  代码公开简单易实现,新发Nat.Cancer ... ·  3 天前  
生信宝典  ·  iMeta高被引论文|暨南大学陈嘉莉/白卫滨 ... ·  2 天前  
生物学霸  ·  科研新姿势:用 Deepseek 复刻 ... ·  2 天前  
生信人  ·  分高不卷,思路明显:聚焦难治性肿瘤 ·  5 天前  
生信人  ·  泛癌可变剪切30分思路分享 ·  4 天前  
51好读  ›  专栏  ›  生信媛

RNA-Seq选择参考基因组

生信媛  · 公众号  · 生物  · 2017-09-08 14:05

正文

RNA-seq分析,选择合适的参考基因组其实也是有学问的。

例如,分析小鼠RNAseq,获取小鼠基因组序列,一般基因组数据库有:

UCSC 的genome data

http://hgdownload.soe.ucsc.edu/downloads.html#mouse

NCBI 的Genomes

ftp://ftp.ncbi.nih.gov/genomes/M_musculus/

Ensembl

http://www.ensembl.org/info/data/ftp/index.html


但是,需要注意的是,不管哪一个数据库,关于小鼠基因组序列,除了很熟悉的组装的染色体序列(UCSC中的chrN.fa);还有一些序列,现在只是知道它属于那一条染色体, 并不能在染色体上定位 (UCSC,chrN_random.fa);

这还不算完,全基因组测序从来都不是个简单的事情,总有一些序列(例如,UCSC,chrUn_random.fa)测序失败以及测完了也并不一定可以正确的找到它属于那一条染色体。
选择参考基因组时,我们需要思考一下,对于未组装到染色体上的那部分序列,我们应该怎么选择?


对于参考基因组,这儿提供两个方案:
1) 组装的染色体序列+线粒体DNA序列,植物还得加上叶绿体DNA序列,整合成基因组参考序列。

有问题来了,RNAseq是整个细胞的RNA,属于无法正确在染色体定位和无法定位到特定染色体的序列的reads就出事故了,要么丢了,要么错误匹配到染色体其它位置了,咋办?

不用着急;首先大家可以看一下,其实我们丢掉的那部分序列相对于我们组装的染色体来讲是相当小了;

另外,mapping结果还可以根据reads的mapping qulity和read count数量滤掉一部分reads,大部分错误匹配的reads就没了。







请到「今天看啥」查看全文