专栏名称: 生信杂谈
生物信息学;生物信息;计算机辅助药物设计;测序分析;Python;R;机器学习;论文写作;网站制作;LOL;dota2。
目录
相关文章推荐
浙江市场监管矩阵  ·  专为中小企业设立的WIPO全球奖申报开始啦! ·  21 小时前  
国际金融报  ·  DeepSeek,凭什么带火AI主题投资? ·  昨天  
杭州日报  ·  休2上4休1!明天上班别忘了... ·  2 天前  
钱江晚报  ·  王宝强回应:已经踩过点了 ·  4 天前  
51好读  ›  专栏  ›  生信杂谈

关于人参考基因组fasta文件的组成部分说明

生信杂谈  · 公众号  ·  · 2017-08-17 19:48

正文

在做有参测序分析的时候,选择准确合适的基因组是极其关键的,今天来看下人的参考基因组 fasta 文件包含哪几个部分.

GRCh38 版本的基因组fasta文件为例,我们先看看这个基因组文件里包含哪些序列:

# 查看GRCh38包含哪些序列:
awk '{if($0~">")print $1}' ./Homo_38.fasta> ./tmp.txt

部分结果如下:

上图只显示了部分结果,其实远远不止上图这几条,上面这个 GRCh38 文件中一共有 3366 条序列,前 25 条还好理解,就是 22 常染色体+ X + Y +线粒体.但后面的 chr1_.*_random 又是什么呢.


人基因组fasta注释文件可以分为以下几部分序列:
  1. Primary assembly ,包含以下三部分:

  • Assembled chromosomes : chr1 - chr22 , chrX , chrY chrM 的序列.

  • Unlocalized sequence :以 _random 结尾的序列,表示知道在哪条染色体上,但不知道方向和顺序.

  • Unplaced sequence :以 chrU_ 为前缀的序列,不知道在哪个染色体上.

  1. Alternate contigs, alternate scaffolds或 alternate loci ,以 alt 结尾的序列.用来表征单倍体序列的多样性,这是由于基因组是用单倍体类型表现的,比如 1号染色体 有两条,但 fasta 文件里只有一条的序列,由于基因的多样性(如等位基因)无法通过一条序列表示,所以就有了 alt 序列来补充说明. 但这样的 alt 序列在测序分析 map 的的过程中容易产生 multiple-mapping 低质量的 reads .而GATK的 ZeroMappingQuality 会将这样的reads过滤掉.


  1. PAR 区域 : 伪染色体序列 (pseudoautosomal region) ,PAR区域的基因在 X Y 染色体上都存在.但在 map 序列时会造成 multiple-mapping reads ,所以需要其中一条染色体(如 y 染色体)上的 PAR 区域mask掉.

  1. decoy基因组 :包含人疱疹病毒(EBV)基因组的序列.

关于基因组版本

在下载基因组文件的时候,可以发现即使是GRCh38版本,也有: GRCh38.p6 , GRCh38.p11 等小版本.这里的 p Patchs 指定期对基因组的修补,并且每次修补并没有扰乱染色体位置信息.有两种 patch :







请到「今天看啥」查看全文