专栏名称: 生物探索
探索生物科技价值的新媒体
目录
相关文章推荐
BioArt  ·  Nature | ... ·  11 小时前  
生物学霸  ·  Cell Res ... ·  昨天  
BioArt  ·  Science | ... ·  昨天  
生物学霸  ·  中国科学院:做好 2025 年院士增选工作 ·  2 天前  
51好读  ›  专栏  ›  生物探索

Science | 外源DNA的生存之道:基因如何适应陌生宿主?

生物探索  · 公众号  · 生物  · 2025-02-08 17:12

正文

引言

在生物进化的漫长历程中,基因组并非一成不变,而是不断经历基因转移、重组和适应。外源DNA(foreign DNA)进入宿主细胞后,如何被接受、整合甚至表达,直接影响着生物的遗传稳定性与适应能力。从病毒入侵宿主基因组,到人工基因编辑,这一过程在自然界和实验室中都广泛存在。然而, 当这些外源DNA进入宿主细胞核,它们如何被识别、修饰,并最终影响染色质结构(chromatin organization)和基因表达,仍然是未解之谜。
2月7日 Science 的研究报道“ Sequence-dependent activity and compartmentalization of foreign DNA in a eukaryotic nucleus ”深入探讨了这一问题。研究人员通过在酵母(Saccharomyces cerevisiae)基因组中引入细菌染色体,发现 外源DNA的序列组成(如GC含量)决定了其在宿主细胞核中的适应方式。GC含量较高的DNA更容易被宿主转录,并与酵母自身的活跃染色体混合,而AT含量丰富的DNA则倾向于形成紧密的、低活性的染色质结构,并与宿主基因组分隔开 。这一现象类似于高等生物中“开放染色质”(euchromatin)和“异染色质”(heterochromatin)的分区模式,揭示了染色质空间结构的进化基础。
更令人惊讶的是,研究还发现,即使是与酵母分化超过20亿年的细菌DNA,其染色体仍然能在宿主细胞中自发形成核小体(nucleosome)结构,并按照DNA序列的特点吸引或排斥转录因子。这表明,基因序列本身可能蕴含了一种内在“代码”,决定了它在真核环境中的适应方式。这一发现不仅加深了对基因组进化与调控机制的理解,也为合成生物学(synthetic biology)和基因工程(genome engineering)提供了新的启示:如果我们能够准确预测外源DNA的行为,就能更有效地操控基因表达,甚至创造出全新的遗传系统。
该研究不仅揭示了基因组如何在时间长河中不断塑造自身,也让我们得以一窥生命在分子层面的精妙适应能力。未来,这一发现或将帮助研究人员更精准地进行基因组编辑、疾病研究和生物工程应用,为探索遗传奥秘提供新的思路。

外来DNA如何在细胞核中安身立命?

基因组并非一成不变:DNA的动态进化
生命的本质是一场持续进行的基因变革。在生物演化的长河中,基因组(genome)并不是一个静态的蓝图,而是一种高度动态的遗传信息载体。无论是通过突变(mutation)、基因重排(gene rearrangement),还是通过水平基因转移(horizontal gene transfer, HGT),生物体的DNA都在不断地演变和适应,以提高生存竞争力。这种遗传信息的调整不仅塑造了生物的性状,也赋予了生命体应对环境变化的能力。
自然界中存在大量的基因转移现象。例如,细菌之间会通过质粒(plasmid)交换抗生素抗性基因,某些病毒也能将自己的遗传物质整合到宿主细胞的基因组中。甚至在高等生物体中,也发现了一些外源DNA长期保留下来的痕迹。例如,哺乳动物基因组中大约8% 的序列来自远古逆转录病毒(endogenous retroviruses, ERVs),它们在百万年前入侵了祖先细胞,如今已成为我们自身遗传信息的一部分。这些证据表明,外源DNA在生物进化过程中并非简单的“入侵者”,而是潜在的遗传创新者(genetic innovator)。

从病毒入侵到基因编辑:外源DNA的生物学意义
外源DNA(foreign DNA)进入宿主细胞的途径有多种,它可能是病毒感染的产物,也可能是实验室基因编辑(genome engineering)的一部分。在自然界中,病毒依靠自身携带的整合酶(integrase)将其基因嵌入宿主细胞的DNA,从而劫持细胞的分子机器为其复制。在实验室环境下,研究人员通过基因工程技术(如CRISPR-Cas9)将人工设计的DNA序列导入细胞,以修复基因突变或赋予新功能。
然而,无论是自然发生的基因转移,还是人为的基因改造,一个关键问题仍然存在:当外源DNA进入宿主细胞后,它将如何被处理?是被细胞直接降解?被沉默为“无用的垃圾DNA”?还是能成功融入宿主基因组,并开始表达特定的功能?这些问题不仅关乎基因进化的基本原理,也决定了基因治疗(gene therapy)、合成生物学(synthetic biology)等前沿技术的可行性。

基因组的“语言”——DNA序列如何决定其命运?

基因组不仅是生物体遗传信息的载体,也是细胞内一套复杂的“语言系统”。每一段DNA序列,除了决定特定蛋白的合成,还影响其在染色质中的定位、转录活性,以及与宿主细胞的适应程度。该研究的核心发现表明,DNA序列特征,特别是GC含量(GC content),在决定外源DNA的命运中扮演关键角色。


基因组的个性:GC含量如何影响基因表达?

生物体的基因组在不同物种之间存在显著差异,其中GC含量的高低往往与基因活性密切相关。例如,哺乳动物基因组中的基因富集区域往往具有较高的GC含量,而重复序列和非编码区域则倾向于AT富集。这种差异不仅影响DNA的物理性质(如熔解温度),还决定了它在染色质中的归属。
在该研究中,研究人员选取了两种来自细菌的外源DNA,一种GC含量较高(约65%),另一种GC含量较低(约35%),并将它们分别导入酵母基因组中。实验结果显示:
  • 高GC含量的DNA更容易被转录,并且与宿主自身的活跃染色体区域高度共定位,表明它们被细胞识别为“基因活跃区”并纳入转录调控网络。
  • 低GC含量的DNA则更倾向于形成紧密的染色质结构,并远离酵母的活跃基因区,表现出类似异染色质(heterochromatin)的特征。
这一现象提示我们,DNA序列不仅仅编码遗传信息,它本身就携带了“可读性”信号,决定其在宿主细胞中的适应方式。这与真核细胞中基因表达的广泛模式相吻合,例如在人类基因组中,高GC区域往往与开放染色质(euchromatin)相关,而低GC区域更可能位于转录沉默区。

酵母细胞内整合的细菌染色质组成分析 (Credit: Science

(A) 细菌染色体在酵母中的整合及GC含量分布
细菌染色体在酵母细胞中由环状(circular)转变为线性(linear),并整合到酵母基因组中。 紫色代表肺炎支原体(Mpneumo),蓝色代表山羊支原体(Mmyco)。 右侧的图示展示了1 kb窗口GC含量分布: **酵母16号染色体(Chromosome XVI)**的GC含量分布较均匀。 Mpneumo染色体GC含量较低,呈现更窄的分布范围。 Mmyco染色体GC含量最低,表现出显著的AT富集特征。 这一结果表明,外源细菌DNA的GC组成明显不同于宿主酵母基因组,可能影响其染色质结构及基因表达模式。
(B, C) ATAC-seq、核小体定位及组蛋白修饰分析
研究者利用ATAC-seq(开放染色质区域测序)、MNase-seq(微球菌核酸酶切割测序)和ChIP-seq(染色质免疫共沉淀测序),分析了Mpneumo和Mmyco染色体在酵母细胞核中的染色质特征。 ATAC-seq(橙色)数据表明,Mpneumo染色体中部分区域具有较高的染色质开放性,但总体上比酵母染色体更加致密。 MNase-seq(灰色) 显示核小体(nucleosome)在细菌染色体上的排布方式与宿主酵母基因组不同。 ChIP-seq(H2A和H3组蛋白修饰)数据显示,Mpneumo和Mmyco染色体在酵母核内的核小体结合模式有所不同,尤其是Mmyco染色体更趋向形成紧密染色质结构,可能导致转录活性降低。 这些结果表明,尽管细菌染色体可以在酵母细胞核内形成染色质结构,但其核小体排布模式和宿主基因组存在显著差异,可能影响基因表达的可及性。
(D) 细菌染色体上的核小体连接DNA长度分布
研究人员分析了核小体之间的连接DNA(linker DNA)长度,并与酵母基因组相比。 Mpneumo和Mmyco染色体的核小体连接DNA长度呈现不同分布模式,但整体上短于酵母基因组。 在所有测量范围内(0-100 bp),核小体连接DNA的主要峰值落在14 bp和25 bp处(虚线和点线所示)。 Mmyco染色体的核小体连接长度更短,进一步支持其更致密的染色质结构,与低转录活性相吻合。 这说明,细菌染色体进入酵母后,会形成独特的核小体结构,其连接DNA长度可能与宿主基因组的调控方式不同,影响基因表达的可塑性。
(E) Mpneumo和Mmyco染色体的核小体密度分布
研究者对酵母、Mpneumo 和 Mmyco 染色体上的核小体密度进行了对比。 Y轴代表核小体信号强度(MNase-seq测序),结果表明: 酵母基因组的核小体排布较为均匀,核小体峰值与基因活跃区域高度相关。 Mpneumo染色体的核小体排列较为分散,部分区域存在核小体缺失(Nucleosome-depleted regions,黄色高亮区域)。 Mmyco染色体的核小体排列更加紧密,呈现出类似异染色质的特征,可能导致更低的基因转录活性。 这些数据表明,不同的细菌染色体在酵母细胞核中的适应性不同,其核小体排布方式影响着外源DNA的染色质结构,并可能进一步影响基因调控模式。
(F) Scc1和RNA聚合酶II(RNA Pol II)的ChIP-seq分析
Scc1(红色)是染色体结构调控蛋白,RNA Pol II(绿色)是转录起始的关键酶,它们的ChIP-seq数据表明:在酵母16号染色体区域(宿主基因组),RNA Pol II信号较强,表明该区域存在活跃的转录活动。 在Mpneumo染色体区域,RNA Pol II信号相对较弱,但仍可检测到部分转录活跃区域。 在Mmyco染色体区域,RNA Pol II信号几乎检测不到,表明其基因基本处于转录沉默状态。 Scc1在Mmyco染色体上的结合信号较高,提示其可能参与了Mmyco染色质的紧密折叠,从而进一步限制了基因转录。

宿主细胞的“审查”机制:如何识别并处理外源DNA?

宿主细胞并不会无差别地接受所有进入细胞核的DNA,而是拥有一套复杂的“审查”机制,决定哪些外源DNA可以被转录,哪些会被沉默,甚至降解。
该研究的实验数据表明,外源DNA的染色质状态不仅取决于其GC含量,还受到宿主细胞染色质结构的影响。例如,研究人员观察到,低GC含量的外源DNA进入宿主后,几乎不会被RNA聚合酶(RNA polymerase)招募,这意味着宿主的转录机器默认将其“屏蔽”在基因表达网络之外。这与真核生物基因组的异染色质区高度相似,说明即便没有特定的抑制因子,DNA的序列信息本身就决定了它是否容易被转录。
此外,研究还发现,外源DNA的序列特征会影响它在细胞核内的空间分布。高GC外源DNA往往位于核中心,而低GC外源DNA则倾向于被推向核边缘,这与真核生物的染色质分区模式类似。在哺乳动物细胞中,异染色质通常集中在核膜附近,而活跃的染色质更靠近核内中心区域。该研究的结果表明,即便在进化较远的酵母中,这种基因组空间组织的原则依然适用,说明它可能是一种广泛存在的生物学规律。


真核生物的适应策略:为什么某些序列更容易被接纳?

DNA在宿主细胞中的命运并非随机,而是受一系列进化选择压力影响的结果。真核生物的基因组演化过程中,一直在筛选那些更容易整合到自身调控网络中的序列,而外源DNA是否能被接纳,很大程度上取决于它与宿主现有基因组的相似度。
研究人员发现,当外源DNA的GC含量与宿主基因组相近时,它们更容易被细胞核“接受”,并在染色质中找到合适的位置。这一现象可以用“基因组兼容性”(genomic compatibility)来解释——宿主细胞更倾向于接纳与自身基因表达模式相匹配的DNA。这不仅解释了为什么某些外源基因更容易被整合,还为基因工程和合成生物学提供了重要启示:

如果希望外源DNA在宿主细胞中高效表达,就应设计更符合宿主基因组特征的序列。例如,在人类细胞中使用高GC的DNA片段,可能会提升其转录效率。

未来的基因编辑技术可以利用这一原理,优化DNA序列以提高其适应性,减少意外的基因沉默或表达异常的风险。


人工智能“解码”基因命运——预测DNA在宿主细胞中的行为

科学的进步不仅依赖实验数据的积累,也取决于对这些数据的深度解析。近年来,人工智能(Artificial Intelligence, AI)在生物学中的应用越来越广泛,而该研究的发现也为计算建模提供了新的视角。研究人员发现,DNA序列本身决定了其在宿主染色质中的归宿,这意味着机器学习(Machine Learning, ML)可以被用来预测外源DNA的命运。通过整合实验数据与AI算法,研究人员们正在努力“解码”DNA的适应法则,为基因工程提供更精准的工具。


机器学习如何预测染色质状态?——神经网络模型的应用

该研究提供的高通量数据表明,外源DNA的GC含量及序列模式在很大程度上决定了其在宿主细胞中的适应性。这类问题极其复杂,涉及DNA序列、转录因子结合位点、染色质结构和空间定位等多个层面,而传统的生物信息学方法往往难以全面解析这些因素的协同作用。

神经网络模型的应用

研究团队利用深度学习(Deep Learning)技术,建立了一套可以预测外源DNA在宿主细胞内适应性的模型。核心方法包括:
  • 卷积神经网络(CNN, Convolutional Neural Networks)
    CNN在图像识别领域表现出色,但近年来已被广泛应用于生物数据分析。在该研究中,研究人员将DNA序列视为一维“图像”,并利用CNN识别DNA序列中的特定模式,预测其染色质状态。
  • 递归神经网络(RNN, Recurrent Neural Networks)与注意力机制(Attention Mechanism)
    由于DNA序列具有复杂的上下文依赖关系,RNN结合注意力机制被用来分析DNA片段之间的相互作用,并预测它们在核内的空间定位。
  • 集成学习(Ensemble Learning)
    研究人员将实验数据与多个机器学习模型结合,优化预测精度。通过对比不同GC含量的DNA,模型可以较为准确地判断外源DNA是更可能融入开放染色质,还是被沉默为异染色质。
实验结果显示,神经网络模型可以高效识别DNA的适应模式,并预测它在宿主细胞中的行为。例如,当研究人员输入一个未见过的DNA序列,该模型能够准确预测它的染色质状态及核内分布情况。这一突破为基因编辑和合成生物学提供了极具潜力的工具,未来研究人员或许可以在设计DNA序列时,预先预测其在宿主细胞中的表现,以提高基因工程的成功率。


DNA序列的“内在规则”:如何影响转录和染色质结构?

既然AI可以有效预测DNA的命运,那是否说明DNA本身存在一套“适应规则”?研究团队发现,除了GC含量,外源DNA的转录活性和染色质状态还受到多个因素的影响,其中包括:
  1. CpG二核苷酸的密度(CpG density)

  2. 在高等真核生物中,CpG岛(CpG islands)通常与活跃基因的启动子区域相关。该研究发现,即使在酵母这样的低等真核生物中,外源DNA的CpG密度也影响其染色质归属。

    高CpG DNA更容易被宿主识别为可转录区域,而低CpG DNA更容易进入沉默染色质。

  3. 序列的核小体占据倾向(Nucleosome Occupancy Bias)

  4. 核小体是染色质的基本单位,它的排列方式决定了DNA是否可被转录。研究发现,某些DNA序列更容易被核小体包裹,从而形成紧密的异染色质,而另一部分DNA则具有较低的核小体结合倾向,因此更容易形成开放染色质。

    结合机器学习,研究人员建立了一个可以预测DNA序列核小体占据模式的模型,为进一步优化外源DNA的表达提供了计算工具。

  5. 重复序列(Repetitive Elements)

  6. 长串AT重复的序列往往倾向于形成异染色质,而短的GC重复序列可能有助于基因表达。这种现象在高等真核生物中已被广泛观察到,而该研究提供了低等真核生物(如酵母)的实验证据,进一步验证了这一规律的普适性。

这一系列发现表明,DNA的序列特征不仅仅是遗传信息的载体,它还决定了自身的适应模式。人工智能的加入,使得我们可以更系统化地解析这些规则,并在未来进行精准的基因设计。


从自然进化到合成生物学:基因工程的新思路

人工智能在基因组学中的应用,不仅可以帮助我们理解生命的基本规则,还为基因工程和合成生物学(Synthetic Biology)开辟了新的路径。
  1. 优化基因治疗(Gene Therapy)

  2. 目前基因治疗面临的一个关键挑战是如何确保外源DNA在宿主细胞内的稳定表达。该研究的发现提示,未来可以利用机器学习预测最优的DNA序列设计,以提高基因治疗的成功率。

  3. 提高合成基因组的适应性

  4. 合成生物学的目标之一是创造“人工细胞”或功能性基因网络。然而,如何确保人工合成的DNA能够在宿主细胞中正常工作?该研究表明,利用AI预测染色质状态,可以优化基因设计,使其更符合宿主细胞的调控模式。

  5. 精准调控外源DNA的表达

  6. 通过深度学习,我们可以更好地理解如何优化DNA序列,使其在宿主基因组中更高效地表达。这一策略可以广泛应用于生物制造、农业基因工程、疾病治疗等领域。


基因组工程的新方向——操控外源DNA的可能性

随着基因组科学的不断进步,精准操控DNA在细胞中的行为已成为合成生物学和基因治疗的重要目标。该研究揭示了DNA序列特征如何决定其在宿主细胞内的适应性,这一发现不仅深化了我们对基因调控机制的理解,也为基因工程提供了新的方向。未来,如果我们能够精准设计和操控外源DNA的染色质归属,就可能在基因治疗、人工基因组构建以及疾病防治方面取得突破性进展。


基因治疗的未来:能否精准控制外源DNA的表达?

基因治疗(Gene Therapy)旨在通过引入健康基因来修复或替代有缺陷的基因,而一个关键问题是如何确保外源DNA能够在宿主细胞中有效表达。目前,基因治疗面临的挑战包括:
  1. 基因插入位置的不确定性

  2. 传统的病毒载体(如腺相关病毒,AAV)在宿主基因组中的整合位置通常是随机的,可能导致基因表达不可预测,甚至引发突变。

    研究表明,高GC含量的DNA更容易被整合到活跃染色质区域,而低GC DNA则可能沉默,这提示我们可以利用GC含量优化插入位置,提高表达稳定性。

  3. 基因沉默与转录调控

  4. 研究发现,低GC DNA往往被宿主细胞沉默,这意味着在基因治疗中,如果插入的基因GC含量较低,可能难以稳定表达。

    未来,基因治疗可以利用这一规律,设计适应宿主细胞基因组特征的DNA序列,从而避免基因沉默,提高治疗效果。

  5. 人工智能辅助基因设计

  6. 结合前述机器学习预测模型,研究人员可以在进行基因编辑之前预测外源DNA在宿主细胞中的表现,确保基因能够稳定表达,而不会被误归入异染色质区。

    例如,利用深度学习优化基因治疗载体的DNA序列,使其更容易进入开放染色质区,从而提升疗效。


人工基因组的挑战:如何设计适应宿主环境的DNA?

合成生物学(Synthetic Biology)正在推进人工基因组(Artificial Genome)的构建,例如2010年研究人员已经成功合成全球首个人工细菌基因组。但一个关键问题是:如何设计出的人工基因组能够在宿主细胞中稳定运行?
该研究提供了一种新思路:基因组的适应性不仅取决于编码信息,还取决于DNA序列如何影响染色质结构。
  1. 优化人工基因组的GC含量

  2. 该研究证实,GC含量影响DNA的核内定位和转录活性,因此人工基因组的设计需要确保其GC比例适应宿主细胞的基因组特征。

    例如,在构建人源化细菌细胞时,研究人员可以通过调整基因组的GC含量,使其更符合人类细胞的基因表达模式。

  3. 避免异染色质化

  4. 研究显示,某些DNA序列更容易进入沉默染色质区,这可能导致关键基因无法表达。

    通过机器学习分析DNA序列的核小体占据模式和染色质状态,研究人员可以优化人工基因组结构,确保基因能够在宿主环境中高效运作。

  5. 人工智能辅助基因组优化

  6. 研究团队已经开发了一种基于深度学习的预测工具,可以在构建人工基因组时,预测每段DNA的染色质状态,并优化其核内分布。

    这一策略可以大幅提升人工基因组的稳定性,使其在细胞内的表达模式更接近天然基因组。


对抗病毒与癌症的潜力:能否利用这一发现控制异常DNA?

外源DNA的染色质归属问题不仅影响基因治疗和人工基因组设计,还可能在病毒防治和癌症治疗中发挥重要作用。

病毒基因组的调控

许多病毒(如HIV、HPV)能够整合到宿主基因组中,但其表达往往受宿主细胞的染色质状态影响。例如: HIV病毒的DNA整合到宿主基因组后,如果落入活跃染色质区域,病毒基因会持续表达,导致感染扩散。
该研究的发现表明,如果能够人为调控病毒DNA的染色质状态,使其趋向于异染色质区域,或许可以抑制病毒基因的表达,从而控制感染。
未来,研究人员可能开发出一种基于基因组编辑的策略,通过调整病毒DNA的序列特征,使其沉默在宿主基因组中,从而降低病毒活性。


癌症基因组的调控

癌症的发生通常与基因调控异常密切相关,例如: 癌基因(Oncogenes)通常处于开放染色质状态,导致其高表达,促进细胞异常增殖。 抑癌基因(Tumor Suppressor Genes)则常因染色质重塑而沉默,丧失抑制肿瘤的功能。
基于该研究的发现,研究人员或许可以: 通过DNA序列优化策略,影响染色质状态,使癌基因进入异染色质区域,从而降低其活性。 利用基因编辑技术,恢复抑癌基因的开放染色质状态,使其重新表达,抑制癌细胞增殖。

该研究提供了强有力的证据,证明DNA序列不仅是编码遗传信息的载体,它本身就决定了在宿主细胞中的适应模式。这一发现不仅帮助我们理解基因组的演化规律,也为基因工程、合成生物学和基因治疗等领域提供了全新的策略。






请到「今天看啥」查看全文