在做有参测序分析的时候,选择准确合适的基因组是极其关键的,今天来看下人的参考基因组
fasta
文件包含哪几个部分.
以
GRCh38
版本的基因组fasta文件为例,我们先看看这个基因组文件里包含哪些序列:
# 查看GRCh38包含哪些序列:
awk '{if($0~">")print $1}' ./Homo_38.fasta> ./tmp.txt
部分结果如下:
上图只显示了部分结果,其实远远不止上图这几条,上面这个
GRCh38
文件中一共有
3366
条序列,前
25
条还好理解,就是
22
常染色体+
X
+
Y
+线粒体.但后面的
chr1_.*_random
又是什么呢.
人基因组fasta注释文件可以分为以下几部分序列:
-
Primary assembly
,包含以下三部分:
-
Assembled chromosomes
:
chr1
-
chr22
,
chrX
,
chrY
和
chrM
的序列.
-
Unlocalized sequence
:以
_random
结尾的序列,表示知道在哪条染色体上,但不知道方向和顺序.
-
Alternate contigs, alternate scaffolds或 alternate loci
,以
alt
结尾的序列.用来表征单倍体序列的多样性,这是由于基因组是用单倍体类型表现的,比如
1号染色体
有两条,但
fasta
文件里只有一条的序列,由于基因的多样性(如等位基因)无法通过一条序列表示,所以就有了
alt
序列来补充说明. 但这样的
alt
序列在测序分析
map
的的过程中容易产生
multiple-mapping
低质量的
reads
.而GATK的
ZeroMappingQuality
会将这样的reads过滤掉.
-
PAR 区域
: 伪染色体序列
(pseudoautosomal region)
,PAR区域的基因在
X
和
Y
染色体上都存在.但在
map
序列时会造成
multiple-mapping reads
,所以需要其中一条染色体(如
y
染色体)上的
PAR
区域mask掉.
-
decoy基因组
:包含人疱疹病毒(EBV)基因组的序列.
关于基因组版本
在下载基因组文件的时候,可以发现即使是GRCh38版本,也有:
GRCh38.p6
,
GRCh38.p11
等小版本.这里的
p
是
Patchs
指定期对基因组的修补,并且每次修补并没有扰乱染色体位置信息.有两种
patch
: