Motif
Motif 是一段典型的序列或者一个结构。一般来说,我们称之为基序。它是构成任何一种特征序列的基本结构。通俗来讲,motif 是有特征的短序列,一般认为它是拥有生物学功能的保守序列。motif 可能包含特异性的结合位点,或者是涉及某一个特定生物学过程的有共性的序列区段。
研究 motif 的意义
-
识别生物学功能:
motif 是拥有生物学功能的保守序列,研究它们可以帮助我们识别和理解特定的生物学功能。例如,如果一个 motif 与转录因子的结合位点相关,那么研究这个 motif 可以帮助我们了解基因表达调控。
-
理解进化关系:
motif 作为保守序列,在不同物种中可能存在相似的结构。通过比较不同物种的 motif,可以帮助我们理解物种间的进化关系。
-
发现药物靶点:
如果一个 motif 在疾病发生过程中起关键作用,那么它可以作为药物设计的靶点。例如,如果一个 motif 与某种蛋白质的活性位点相关,那么针对这个 motif 设计的药物可能可以抑制该蛋白质的活性,从而治疗疾病。
-
预测蛋白质结构和功能:
通过分析蛋白质序列中存在的 motif,可以预测蛋白质的结构和功能。例如,如果一个蛋白质序列包含一个已知的 DNA 结合 motif,那么我们可以推测该蛋白质可能具有 DNA 结合功能。
Motif 分析
简单来说, motif 是一段有规律的序列,我们认为这些序列有一定的作用,那就延伸出一个问题,我们怎么找出这些规律。
比如我们有一个参考基因组序列
$ head refs/saccer3.fa
>chrI
CCACACCACACCCACACACCCACACACCACACCACACACCACACCACACC
CACACACACACATCCTAACACTACCCTAACACAGCCCTAATCTAACCCTG
GCCAACCTGTCTCTCAACTTACCCTCCATTACCCTGCCTCCACTCGTTAC
CCTGTCCCATTCAACCATACCACTCCGAACCACCATCCATCCCTCTACTT
ACTACCACTCACCCACCGTTACCCTCCAATTACCCATATCCAACCCACTG
CCACTTACCCTACCATTACCCTACCATCCACCATGACCTACTCACCATAC
TGTTCTTCTACCCACCATATTGAAACGCTAACAAATGATCGTAAATAACA
CACACGTGCTTACCCTACCACTTTATACCACCACCACATGCCATACTCAC
CCTCACTTGTATACTGATTTTACGTACGCACACGGATGCTACAGTATATA
我们想知道这个序列中有没有
GTGACGT
,这样的序列模式。
使用 seqkit 工具完成这个操作。
REF=refs/sc.fa
cat $REF | seqkit locate -p GTGACGT | head
seqID patternName pattern strand start end matched
chrI GTGACGT GTGACGT + 10705 10711 GTGACGT
chrI GTGACGT GTGACGT + 19820 19826 GTGACGT
chrI GTGACGT GTGACGT + 84191 84197 GTGACGT
chrI GTGACGT GTGACGT + 101042 101048 GTGACGT
chrI GTGACGT GTGACGT + 120400 120406 GTGACGT
chrI GTGACGT GTGACGT - 225247 225253 GTGACGT
chrI GTGACGT GTGACGT - 212278 212284 GTGACGT
chrI GTGACGT GTGACGT - 206179 206185 GTGACGT
chrI GTGACGT GTGACGT - 193433 193439 GTGACGT
也可以简单统计一下有多少个匹配
cat $REF | seqkit locate -p GTGACGT | wc -l
717
可以看到有 717 个位置存在这个序列模式。
当然了,这只是一种很粗糙的寻找方式,而且真正的 motif 也并不是完全按照这个
GTGACGT
这样的方式进行排列,可能在某些位点上有所替换。比如:
cat $REF | seqkit locate -r -p 'G(T|A)GA(C|T)(G|A)T' | wc -l
11395
我们使用正则表达式来表示更多的替换情况,相应的匹配模式就会多很多
尽管如此,在实际研究中,我们很少会这样天马行空的想到一个 motif,然后探索他们在基因组中的出现情况,通常情况下,我们通过 ChIP-Seq 分析,会得到一个 peaks 文件,也就是我们关注的蛋白与基因组 “结合” 位点信息,我们想知道这些序列中,存不存在某些规律。另外如果存在某些规律(motif),是否和已发现的 motif 相同或者相似,进而佐证我们实验的准确性。那我们就需要更加专业的工具了。
motif 分析序列
motif 分析是 ChIP-Seq 中的常规分析,可以了解到 motif 分析就是找基因序列上的规律,那在 ChIP-Seq 分析中,我们是想知道 peaks 序列上的 motif, 在选择序列问题上,我们也有两种选择。
-
直接选择 全长 peaks 的序列作为 motif 分析的输入
-
选择使用峰顶 (summit)附近扩展的序列作为 motif 分析的输入
输入类型
|
适用场景
|
优点
|
缺点
|
峰顶附近扩展的序列
|
转录因子(TF)结合位点明确集中在峰顶附近(如窄峰,如酵母、转录因子ChIP-seq)
|
减少背景噪音,提高motif信噪比
|
若结合位点分布较广(如组蛋白修饰宽峰),可能遗漏部分motif
|
全长peaks的序列
|
结合位点分布广泛(如增强子区域、组蛋白修饰宽峰)
|
覆盖所有潜在结合区域,避免遗漏motif
|
引入更多非特异序列,增加计算量,可能降低motif富集的显著性
|
这里也有一些建议
(1)优先使用峰顶附近扩展的序列
-
生物学合理性
:大多数TF结合位点位于ChIP-seq峰顶附近(±50-100bp),峰顶是结合位点的统计显著性最高点。
示例
:
-
酵母转录因子ChIP-seq
:峰宽通常为50-200bp,直接使用峰顶±50bp即可覆盖核心结合区域。
-
哺乳动物TF(如CTCF)
:峰顶±100bp足以捕获motif。
-
计算效率
:短序列(如200bp)显著降低MEME等工具的计算复杂度,避免因长序列引入的随机背景干扰。
-
-
HOMER默认使用峰中心±100bp进行motif分析(
findMotifs.pl -size 200
)。
-
ENCODE项目中对TF ChIP-seq的标准化流程也推荐峰顶扩展。
(2)使用全长peaks的序列的情况
-
-
组蛋白修饰(如H3K4me3、H3K27ac)的peaks较宽(>1kb),motif可能分散在peak内。
-
增强子或超级增强子区域包含多个TF结合位点,需覆盖整个区域。
-
验证性分析
:若峰顶附近未找到预期motif,可尝试使用全长peaks验证是否存在边缘结合位点。
分析工具
MEME-ChIP
这里我们就使用峰顶附近扩展的序列。MEME-ChIP推荐使用左右各拓展 250bp。
-
可以看到峰顶BED文件包含三行,染色体、起始位点、终止位点