专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
BioArt  ·  Cell | ... ·  9 小时前  
生信菜鸟团  ·  数据挖掘 | 生信优质期刊 ... ·  16 小时前  
BioArt  ·  百卅齐鲁 ... ·  昨天  
生信人  ·  ecDNA驱动肿瘤进展—Nature热点又来 ... ·  2 天前  
生物制品圈  ·  世界肥胖日,聊一聊下一代减肥新靶点 ·  2 天前  
51好读  ›  专栏  ›  生信菜鸟团

ChIP-Seq motif

生信菜鸟团  · 公众号  · 生物  · 2025-03-03 20:39

正文

Motif

Motif 是一段典型的序列或者一个结构。一般来说,我们称之为基序。它是构成任何一种特征序列的基本结构。通俗来讲,motif 是有特征的短序列,一般认为它是拥有生物学功能的保守序列。motif 可能包含特异性的结合位点,或者是涉及某一个特定生物学过程的有共性的序列区段。

研究 motif 的意义

  • 识别生物学功能: motif 是拥有生物学功能的保守序列,研究它们可以帮助我们识别和理解特定的生物学功能。例如,如果一个 motif 与转录因子的结合位点相关,那么研究这个 motif 可以帮助我们了解基因表达调控。
  • 理解进化关系: motif 作为保守序列,在不同物种中可能存在相似的结构。通过比较不同物种的 motif,可以帮助我们理解物种间的进化关系。
  • 发现药物靶点: 如果一个 motif 在疾病发生过程中起关键作用,那么它可以作为药物设计的靶点。例如,如果一个 motif 与某种蛋白质的活性位点相关,那么针对这个 motif 设计的药物可能可以抑制该蛋白质的活性,从而治疗疾病。
  • 预测蛋白质结构和功能: 通过分析蛋白质序列中存在的 motif,可以预测蛋白质的结构和功能。例如,如果一个蛋白质序列包含一个已知的 DNA 结合 motif,那么我们可以推测该蛋白质可能具有 DNA 结合功能。

Motif 分析

简单来说, motif 是一段有规律的序列,我们认为这些序列有一定的作用,那就延伸出一个问题,我们怎么找出这些规律。

比如我们有一个参考基因组序列

$ head refs/saccer3.fa
>chrI
CCACACCACACCCACACACCCACACACCACACCACACACCACACCACACC
CACACACACACATCCTAACACTACCCTAACACAGCCCTAATCTAACCCTG
GCCAACCTGTCTCTCAACTTACCCTCCATTACCCTGCCTCCACTCGTTAC
CCTGTCCCATTCAACCATACCACTCCGAACCACCATCCATCCCTCTACTT
ACTACCACTCACCCACCGTTACCCTCCAATTACCCATATCCAACCCACTG
CCACTTACCCTACCATTACCCTACCATCCACCATGACCTACTCACCATAC
TGTTCTTCTACCCACCATATTGAAACGCTAACAAATGATCGTAAATAACA
CACACGTGCTTACCCTACCACTTTATACCACCACCACATGCCATACTCAC
CCTCACTTGTATACTGATTTTACGTACGCACACGGATGCTACAGTATATA

我们想知道这个序列中有没有 GTGACGT ,这样的序列模式。

使用 seqkit 工具完成这个操作。

REF=refs/sc.fa
cat $REF | seqkit locate -p GTGACGT | head

seqID   patternName     pattern strand  start   end     matched
chrI    GTGACGT GTGACGT +       10705   10711   GTGACGT
chrI    GTGACGT GTGACGT +       19820   19826   GTGACGT
chrI    GTGACGT GTGACGT +       84191   84197   GTGACGT
chrI    GTGACGT GTGACGT +       101042  101048  GTGACGT
chrI    GTGACGT GTGACGT +       120400  120406  GTGACGT
chrI    GTGACGT GTGACGT -       225247  225253  GTGACGT
chrI    GTGACGT GTGACGT -       212278  212284  GTGACGT
chrI    GTGACGT GTGACGT -       206179  206185  GTGACGT
chrI    GTGACGT GTGACGT -       193433  193439  GTGACGT

也可以简单统计一下有多少个匹配

cat $REF | seqkit locate -p GTGACGT | wc -l
     717

可以看到有 717 个位置存在这个序列模式。

当然了,这只是一种很粗糙的寻找方式,而且真正的 motif 也并不是完全按照这个 GTGACGT 这样的方式进行排列,可能在某些位点上有所替换。比如:

 cat $REF | seqkit locate -r -p 'G(T|A)GA(C|T)(G|A)T' | wc -l
   11395

我们使用正则表达式来表示更多的替换情况,相应的匹配模式就会多很多

尽管如此,在实际研究中,我们很少会这样天马行空的想到一个 motif,然后探索他们在基因组中的出现情况,通常情况下,我们通过 ChIP-Seq 分析,会得到一个 peaks 文件,也就是我们关注的蛋白与基因组 “结合” 位点信息,我们想知道这些序列中,存不存在某些规律。另外如果存在某些规律(motif),是否和已发现的 motif 相同或者相似,进而佐证我们实验的准确性。那我们就需要更加专业的工具了。

motif 分析序列

motif 分析是 ChIP-Seq 中的常规分析,可以了解到 motif 分析就是找基因序列上的规律,那在 ChIP-Seq 分析中,我们是想知道 peaks 序列上的 motif, 在选择序列问题上,我们也有两种选择。

  1. 直接选择 全长 peaks 的序列作为 motif 分析的输入
  2. 选择使用峰顶 (summit)附近扩展的序列作为 motif 分析的输入
输入类型 适用场景 优点 缺点
峰顶附近扩展的序列 转录因子(TF)结合位点明确集中在峰顶附近(如窄峰,如酵母、转录因子ChIP-seq) 减少背景噪音,提高motif信噪比 若结合位点分布较广(如组蛋白修饰宽峰),可能遗漏部分motif
全长peaks的序列 结合位点分布广泛(如增强子区域、组蛋白修饰宽峰) 覆盖所有潜在结合区域,避免遗漏motif 引入更多非特异序列,增加计算量,可能降低motif富集的显著性

这里也有一些建议

(1)优先使用峰顶附近扩展的序列

  • 生物学合理性 :大多数TF结合位点位于ChIP-seq峰顶附近(±50-100bp),峰顶是结合位点的统计显著性最高点。 示例
    • 酵母转录因子ChIP-seq :峰宽通常为50-200bp,直接使用峰顶±50bp即可覆盖核心结合区域。
    • 哺乳动物TF(如CTCF) :峰顶±100bp足以捕获motif。
  • 计算效率 :短序列(如200bp)显著降低MEME等工具的计算复杂度,避免因长序列引入的随机背景干扰。
  • 支持
    • HOMER默认使用峰中心±100bp进行motif分析( findMotifs.pl -size 200 )。
    • ENCODE项目中对TF ChIP-seq的标准化流程也推荐峰顶扩展。

(2)使用全长peaks的序列的情况

  • 宽峰或复杂调控区域
    • 组蛋白修饰(如H3K4me3、H3K27ac)的peaks较宽(>1kb),motif可能分散在peak内。
    • 增强子或超级增强子区域包含多个TF结合位点,需覆盖整个区域。
  • 验证性分析 :若峰顶附近未找到预期motif,可尝试使用全长peaks验证是否存在边缘结合位点。

分析工具

MEME-ChIP

这里我们就使用峰顶附近扩展的序列。MEME-ChIP推荐使用左右各拓展 250bp。

  1. 先根据峰顶bed文件各自向左右拓展250bp

可以看到峰顶BED文件包含三行,染色体、起始位点、终止位点







请到「今天看啥」查看全文