ChIP-Seq motif

生信菜鸟团 · 公众号 · 生物 · 2025-03-03 20:39

正文

Motif

Motif 是一段典型的序列或者一个结构。一般来说，我们称之为基序。它是构成任何一种特征序列的基本结构。通俗来讲，motif 是有特征的短序列，一般认为它是拥有生物学功能的保守序列。motif 可能包含特异性的结合位点，或者是涉及某一个特定生物学过程的有共性的序列区段。

研究 motif 的意义

识别生物学功能： motif 是拥有生物学功能的保守序列，研究它们可以帮助我们识别和理解特定的生物学功能。例如，如果一个 motif 与转录因子的结合位点相关，那么研究这个 motif 可以帮助我们了解基因表达调控。
理解进化关系： motif 作为保守序列，在不同物种中可能存在相似的结构。通过比较不同物种的 motif，可以帮助我们理解物种间的进化关系。
发现药物靶点： 如果一个 motif 在疾病发生过程中起关键作用，那么它可以作为药物设计的靶点。例如，如果一个 motif 与某种蛋白质的活性位点相关，那么针对这个 motif 设计的药物可能可以抑制该蛋白质的活性，从而治疗疾病。
预测蛋白质结构和功能： 通过分析蛋白质序列中存在的 motif，可以预测蛋白质的结构和功能。例如，如果一个蛋白质序列包含一个已知的 DNA 结合 motif，那么我们可以推测该蛋白质可能具有 DNA 结合功能。

Motif 分析

简单来说， motif 是一段有规律的序列，我们认为这些序列有一定的作用，那就延伸出一个问题，我们怎么找出这些规律。

比如我们有一个参考基因组序列

$ head refs/saccer3.fa
>chrI
CCACACCACACCCACACACCCACACACCACACCACACACCACACCACACC
CACACACACACATCCTAACACTACCCTAACACAGCCCTAATCTAACCCTG
GCCAACCTGTCTCTCAACTTACCCTCCATTACCCTGCCTCCACTCGTTAC
CCTGTCCCATTCAACCATACCACTCCGAACCACCATCCATCCCTCTACTT
ACTACCACTCACCCACCGTTACCCTCCAATTACCCATATCCAACCCACTG
CCACTTACCCTACCATTACCCTACCATCCACCATGACCTACTCACCATAC
TGTTCTTCTACCCACCATATTGAAACGCTAACAAATGATCGTAAATAACA
CACACGTGCTTACCCTACCACTTTATACCACCACCACATGCCATACTCAC
CCTCACTTGTATACTGATTTTACGTACGCACACGGATGCTACAGTATATA

我们想知道这个序列中有没有 GTGACGT ，这样的序列模式。

使用 seqkit 工具完成这个操作。

REF=refs/sc.fa
cat $REF | seqkit locate -p GTGACGT | head

seqID   patternName     pattern strand  start   end     matched
chrI    GTGACGT GTGACGT +       10705   10711   GTGACGT
chrI    GTGACGT GTGACGT +       19820   19826   GTGACGT
chrI    GTGACGT GTGACGT +       84191   84197   GTGACGT
chrI    GTGACGT GTGACGT +       101042  101048  GTGACGT
chrI    GTGACGT GTGACGT +       120400  120406  GTGACGT
chrI    GTGACGT GTGACGT -       225247  225253  GTGACGT
chrI    GTGACGT GTGACGT -       212278  212284  GTGACGT
chrI    GTGACGT GTGACGT -       206179  206185  GTGACGT
chrI    GTGACGT GTGACGT -       193433  193439  GTGACGT

也可以简单统计一下有多少个匹配

cat $REF | seqkit locate -p GTGACGT | wc -l
     717

可以看到有 717 个位置存在这个序列模式。

当然了，这只是一种很粗糙的寻找方式，而且真正的 motif 也并不是完全按照这个 GTGACGT 这样的方式进行排列，可能在某些位点上有所替换。比如：

 cat $REF | seqkit locate -r -p 'G(T|A)GA(C|T)(G|A)T' | wc -l
   11395

我们使用正则表达式来表示更多的替换情况，相应的匹配模式就会多很多

尽管如此，在实际研究中，我们很少会这样天马行空的想到一个 motif，然后探索他们在基因组中的出现情况，通常情况下，我们通过 ChIP-Seq 分析，会得到一个 peaks 文件，也就是我们关注的蛋白与基因组 “结合” 位点信息，我们想知道这些序列中，存不存在某些规律。另外如果存在某些规律（motif），是否和已发现的 motif 相同或者相似，进而佐证我们实验的准确性。那我们就需要更加专业的工具了。

motif 分析序列

motif 分析是 ChIP-Seq 中的常规分析，可以了解到 motif 分析就是找基因序列上的规律，那在 ChIP-Seq 分析中，我们是想知道 peaks 序列上的 motif, 在选择序列问题上，我们也有两种选择。

直接选择全长 peaks 的序列作为 motif 分析的输入
选择使用峰顶（summit）附近扩展的序列作为 motif 分析的输入

输入类型	适用场景	优点	缺点
峰顶附近扩展的序列	转录因子（TF）结合位点明确集中在峰顶附近（如窄峰，如酵母、转录因子ChIP-seq）	减少背景噪音，提高motif信噪比	若结合位点分布较广（如组蛋白修饰宽峰），可能遗漏部分motif
全长peaks的序列	结合位点分布广泛（如增强子区域、组蛋白修饰宽峰）	覆盖所有潜在结合区域，避免遗漏motif	引入更多非特异序列，增加计算量，可能降低motif富集的显著性

这里也有一些建议

（1）优先使用峰顶附近扩展的序列

生物学合理性 ：大多数TF结合位点位于ChIP-seq峰顶附近（±50-100bp），峰顶是结合位点的统计显著性最高点。示例：

酵母转录因子ChIP-seq ：峰宽通常为50-200bp，直接使用峰顶±50bp即可覆盖核心结合区域。
哺乳动物TF（如CTCF） ：峰顶±100bp足以捕获motif。

计算效率 ：短序列（如200bp）显著降低MEME等工具的计算复杂度，避免因长序列引入的随机背景干扰。
支持：

HOMER默认使用峰中心±100bp进行motif分析（ findMotifs.pl -size 200 ）。
ENCODE项目中对TF ChIP-seq的标准化流程也推荐峰顶扩展。

（2）使用全长peaks的序列的情况

宽峰或复杂调控区域 ：

组蛋白修饰（如H3K4me3、H3K27ac）的peaks较宽（>1kb），motif可能分散在peak内。
增强子或超级增强子区域包含多个TF结合位点，需覆盖整个区域。

验证性分析 ：若峰顶附近未找到预期motif，可尝试使用全长peaks验证是否存在边缘结合位点。

分析工具

MEME-ChIP

这里我们就使用峰顶附近扩展的序列。MEME-ChIP推荐使用左右各拓展 250bp。

先根据峰顶bed文件各自向左右拓展250bp

可以看到峰顶BED文件包含三行，染色体、起始位点、终止位点