专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
生物制品圈  ·  RNA疫苗的过去、现在和未来 ·  昨天  
生物制品圈  ·  mRNA、RNAi、circRNA、ASOs ... ·  2 天前  
BioArt  ·  Nat ... ·  2 天前  
生信人  ·  泛癌可变剪切30分思路分享 ·  3 天前  
生物学霸  ·  实验重复不出来?这个细节很关键 ·  3 天前  
51好读  ›  专栏  ›  生信菜鸟团

前瞻 | MorPhiC:描述每个人类基因的分子和细胞功能,人类基因的功能性表征

生信菜鸟团  · 公众号  · 生物  · 2025-02-20 10:30

正文

Basic Information

  • 英文标题:MorPhiC Consortium: towards functional characterization of all human genes
  • 中文标题:MorPhiC 联盟:迈向对所有人类基因的功能性表征
  • 发表日期:12 February 2025
  • 文章类型:Perspective
  • 所属期刊:Nature
  • 文章作者:Mazhar Adli | The MorPhiC Consortium
  • 文章链接:https://www.nature.com/articles/s41586-024-08243-w

Abstract

Para_01
  1. 近年来,功能基因组学和人类细胞模型的进展大大增强了我们对人类基因组结构和调控的理解。
  2. 然而,我们对人类基因分子功能的理解仍然不完整,并且偏向于特定的基因类别。
  3. Null 等位基因在细胞中的分子表型 (MorPhiC) 联盟旨在通过使用体外多细胞系统创建一个人类所有基因的 null 等位基因相关的分子和细胞表型的综合目录来填补这一空白。
  4. 在这篇观点文章中,我们介绍了 MorPhiC 联盟的战略愿景,并讨论了生成 null 等位基因的各种策略以及涉及的挑战。
  5. 我们描述了将在联盟初始阶段使用的细胞模型和可扩展的表型读出方法,重点放在 1,000 个蛋白质编码基因上。
  6. 由此产生的分子和细胞数据将被编译成一个 null 等位基因表型目录。
  7. 本阶段开发的方法将为将这些方法扩展到所有人蛋白质编码基因建立最佳实践。
  8. 生成的资源——包括工程细胞系、质粒、表型数据、基因组信息和计算工具——将提供给更广泛的研究社区,以促进对人类基因功能的深入理解。

Main

Para_01
  1. 2025年将是自DNA结构发现以来的第72年。自从首次描述核苷酸如何组织成DNA双螺旋以来,我们对这种分子如何编码生命蓝图的理解一直在不断发展。
  2. 高通量DNA测序技术的进步推动了人们理解DNA分子集合在人类细胞核中如何组织和功能的努力。
  3. 为此,国家和国际大型联盟推动了基因组学的进步。
  4. 例如,人类基因组计划无疑是生物学历史上最雄心勃勃和开创性的努力,它提供了一个基础性的开放获取参考资源,建立了现代基因组学领域。
Para_02
  1. 下一个前沿之一是描述每个人类基因的分子和细胞功能。这些努力将告诉我们基因如何单独或共同调控细胞过程,并最终影响生物体的表型,包括疾病。
  2. 这样的雄心勃勃的努力将是具有挑战性和复杂的,因为大约20,319个蛋白质编码基因(Ensembl Genes 110 (GRCh38.p14))中的许多基因具有依赖于环境的分子和细胞功能,并因此在人体内的数千种细胞类型或状态下产生不同的表型效应。
  3. 到目前为止,我们对人类基因的分子和细胞功能的大部分了解来自于对特定发育谱系或疾病中个别基因的详细研究。
  4. 这些努力产生了对人类基因的偏斜理解,偏向于那些与某些疾病如癌症有关的基因组。
  5. 例如,尽管已有超过13,000篇关于TP53的研究文章发表,但一半的人类基因在文献中几乎没有提及(图1)。
  6. 据估计,所有关于蛋白质编码基因的研究中有75%集中在不到10%的蛋白质上,其中许多在人类基因组计划开始之前就已经被研究人员研究过了。

Fig. 1: Publications that mention human genes.

- 图片说明 - 点图显示了基于PubMed搜索的每种人类基因的出版物总数。统计包括在摘要或正文文本中出现基因符号的已发表文章。该图的代码由M. Hirshey提供。

Para_03
  1. 需要系统性的努力来创建一个人类基因功能的稳健目录,以缓解对人类基因的这种偏见理解。这样的参考数据将注释基因在正常发育中的功能,并告知其异常调节如何导致人类疾病。
  2. 以前的人类遗传学研究提供了大量信息,说明了特定基因中的错义或功能丧失编码变异等遗传变异如何影响表型和疾病。
  3. 通过全基因组关联研究(GWAS),研究人员确定了与超过5,000个人类复杂性状表型显著相关的特定遗传变异。
  4. 此外,将单基因疾病的全外显子组和全基因组测序工作中的致病突变联系起来,揭示了正常和疾病发展中的有机体水平基因功能。
  5. 大规模测序工作及相关资源,如基因组聚合数据库(gnomAD),已经对人类基因中的遗传突变提供了关键见解,包括发现具有或不具有明显表型的纯合功能丧失突变(人类基因敲除)和导致显著表型的杂合功能丧失突变(单倍剂量不足基因)。
  6. 然而,大多数基因在正常功能和发育过程中单独或共同作用以建立细胞身份或影响细胞状态的方式仍然在很大程度上未知。
Para_04
  1. 模式生物在系统地研究基因功能方面发挥了重要作用。从20世纪80年代开始,基因敲入技术(如同源重组)的进步和小鼠多能干细胞的获得使得在哺乳动物系统中分析无效等位基因成为可能。
  2. 这些研究使国际小鼠表型分析联盟(IMPC)能够分析小鼠蛋白编码基因中的无效等位基因的发育和有机体表型,揭示了超过8300个小鼠基因与人类直系同源基因的体内功能。
  3. 尽管强大,但小鼠模型并不总是再现人类正常和恶性发育的某些特征,特别是复杂或与衰老相关的疾病状态。
  4. 此外,在20319个人类蛋白编码基因中,只有16521个基因与小鼠基因具有1对1的直系同源关系(Ensembl 110(GRCh38.p14)),这进一步强调了在多细胞人类系统中研究无效等位基因表型的重要性。
Para_05
  1. 在过去的几十年里,各种人类细胞类型生成了大量基因组和表观基因组图谱数据。
  2. 通过大规模联盟的努力,人类基因在表达模式和表观基因调控方面得到了很好的注释。
  3. 例如,DNA 元素百科全书(ENCODE)项目、路线图表观基因组图谱绘制联盟和 4D-核体项目提供了关键见解,说明了基因表达如何在各种人类细胞类型中受到调控,包括通过映射候选远端调控元件和三维基因组组织。
  4. 补充这些努力,人类细胞图谱和人类生物分子图谱计划(HuBMAP)以单细胞分辨率全面绘制了基因在人体组织中的表达位置。
  5. 然而,理解基因的分子功能需要在特定功能扰动后研究表型。
  6. 为此,大规模全基因组 CRISPR 基因敲除研究提供了重要见解,揭示了基因功能丧失如何影响细胞存活能力和选定的表型状态。
  7. 例如,癌症依赖性图谱是一种广泛使用的参考资源,评估了数百种癌细胞系中所有人类基因的重要性。
  8. 其他结合细胞表型读数的大规模全基因组 CRISPR 筛选,包括基于排序的筛选、用于单细胞转录组读数的 Perturb-seq 和基于细胞形态成像的筛选,为基因功能提供了额外的见解。
Para_06
  1. 尽管这些高通量筛选工作非常强大,但它们通常只关注一个可测量的表型,因此无法全面理解基因功能。
  2. 此外,筛选结果的验证工作通常仅限于少数几个得分最高的命中点,而其余基因则未被表征。
  3. 因此,需要系统地努力研究人类基因的功能。
  4. 理想情况下,这些努力将从一个基因开始,并系统地表征其无效等位基因的分子和细胞功能。
  5. 然而,人类基因组的规模、人类基因的数量以及一个基因可能控制的各种表型为系统表征所有人类基因带来了巨大挑战。
  6. 认识到这些挑战,MorPhiC 联盟旨在通过在一个多细胞系统中创建所有人类基因的细胞和分子无效等位基因表型的稳健目录来实现这一目标。
  7. 在这一努力的初始阶段,将评估如此雄心勃勃的目标的可行性,该阶段针对 1,000 个蛋白质编码基因。
Para_07
  1. 基因工程和细胞模型的最新进展更好地捕捉了人类发育生物学,使我们更接近这一目标。
  2. 为了实现无等位基因表型的工程化,CRISPR 技术现在能够通过基因组或表观基因组编辑对基因功能进行编程、可扩展的扰动。
  3. 为了在许多细胞环境中研究其影响,包括胚胎干细胞和诱导多能干细胞在内的多种人类多能干细胞提供了强大的体外模型,这些模型适合进行基因操作和大规模扰动筛选。
  4. 这些细胞可以分化为许多细胞类型,包括高度复杂的多细胞系统,并且与之前研究癌细胞系的努力不同,它们可以在长期培养中稳定地维持二倍体核型和基因组完整性。
  5. 最后,为了捕捉许多可能的分子和细胞表型,诸如 RNA 测序(RNA-seq)、转座酶可及染色质测序(ATAC-seq)和蛋白质组学等高含量表型方法现在能够同时测量许多分子表型,以捕捉对细胞过程的各种影响。
  6. 最终,扰动每个基因在每种可能的细胞类型中的可能性可能仍然无法实现,并且所有模型系统在代表体内人类细胞生物学方面都有局限性。
  7. 然而,新的计算方法使得构建基因调控网络成为可能,从而预测在新细胞环境中未研究过的基因扰动的影响。
  8. 下面我们将描述 MorPhiC 联盟初始阶段的组织结构、具体目标和预期成果,以及如何实现其雄心勃勃的广泛目标。

A coordinated study of human genes

Para_01
  1. 2020年国家人类基因组研究所(NHGRI)的战略愿景(https://www.genome.gov/2020SV)提出了一系列‘到2030年人类基因组学的大胆预测’。其中一个预测是‘每个人类基因的生物学功能都将被知晓……’。
  2. 战略愿景指出,‘最近在知识和技术方面的进展提供了一个前所未有的机会来解读每个基因和调控元件的个体和综合角色。这必须从确定每个人类基因的功能开始,包括人类基因敲除的表型效应’。
  3. 由于这一挑战的范围,这样的目标需要多个团队的协调努力。
  4. 系统地获取有关所有人类基因敲除的分子和细胞表型效应的信息将为基因的生物学功能提供广泛的见解。
  5. 这些数据将为理解基因在发育和疾病状态下产生生物表型的机制提供一个立足点。
Para_02
  1. 怀着这一愿景,MorPhiC 项目于 2022 年启动,旨在使用体外多细胞系统为每个人类蛋白质编码基因的无效等位基因创建一个公开可用的分子和细胞表型目录。
  2. 在独立小组的竞争性资助提案之后,组建了该阶段的联盟,以针对初始的 1,000 个蛋白质编码基因,采用多种策略生成无效等位基因,并在多个细胞环境中测量其表型效应(方框 1)。
  3. 预计需要五年时间的初始阶段还将评估不同方法的可扩展性和局限性,开发标准数据格式,并为此目录建立‘用例’。
  4. 由此产生的无效等位基因表型目录将包含每个无效等位基因的核心分子和细胞表型信息,包括 iPS 细胞自我更新、多能性和基因表达谱。
  5. 此外,每个数据生产中心将通过额外的检测补充这些核心表型,包括 ATAC-seq、脂质组学、蛋白质组学和特定细胞类型中无效等位基因的功能分析。
  6. 这些第一阶段的初步努力将揭示各种无效等位基因生成策略的效用,并确定最具信息性的表型检测及其在未来大规模揭示基因功能的可扩展性。
  7. 鉴于基因通常具有细胞类型和环境特异性功能,这些初步努力不会涵盖所有可能的检测和细胞类型。
  8. MorPhiC 联盟将公开共享生成的表型数据和无效等位基因的克隆系作为社区资源,从而使得未来能够在更多背景下研究这些基因。
Para_03
  1. MorPhiC 联盟目前由四个数据生产中心(DPCs)、一个数据资源和行政协调中心(DRACC)以及三个数据分析和验证中心(DAVs)组成。
  2. 每个中心分别获得了独立开发的一套策略和目标的资金,包括在不同细胞系统中采用不同的无效等位基因生成和表型分析方法。
  3. 尽管这种结构涉及特定的聚焦和协调方法的挑战,但它也使得在联盟的第一阶段能够开发平台来测试多种策略和检测方法,在此期间,每个小组将利用其核心优势以协同和互利的方式测试不同的方法。
  4. 通过这种方式,联盟将使用几种策略生成无效等位基因,并在多个体外细胞模型系统中评估无效等位基因的表型(图 2)。
  5. 为了增强协调并能够在中心之间直接比较策略,联盟将实施两种关键方法。
  6. 首先,每个 DPC 将为一组基因生成经过验证的克隆无效等位基因(初始集包括 ISL1、EOMES、GCM1 和 NKX2-1),并将这些克隆细胞系分发给所有联盟站点。
  7. 然后,每个中心将使用其特定的分子和细胞协议对这些经过验证的无效等位基因进行一系列表型检测。
  8. 虽然这种方法耗费资源和劳动力,但将在相同的实验室环境中实现对无效等位基因生成策略的直接比较。
  9. 其次,联盟的所有 DPC 将评估另外 15 个基因的无效等位基因表型。
  10. 这些共同基因将是非必需的发育调控因子和转录因子,以便无效等位基因是可行的,并且表型可以通过核心表型检测稳健地量化。
  11. 四个中心中的每一个都将为这些基因创建无效等位基因,并对由此产生的 iPS 细胞群体进行表型评估,包括多能性、存活率和基因表达谱等核心检测。
  12. 除了这 15 个便于四路比较的基因之外,还将有一组至少由 2 个 DPC 针对的重叠基因,从而实现更全面的无效等位基因生成策略和表型的比较分析。
  13. 为了在这些协调努力中尽量减少细胞系偏差,所有常见基因的无效等位基因都将在相同的开放获取 KOLF2.2J iPS 细胞系中生成。
  14. 这些协调努力将使不同策略生成的无效等位基因的核心表型结果能够直接比较。
  15. 以下各节将详细介绍无效等位基因生成策略、基因靶标选择和表型检测的具体方法和原理。

Fig. 2: Experimental strategies and assays.

- 图片说明 - 示意图展示了用于生成无效等位基因的一般实验策略以及用于表征无效等位基因表型的主要细胞和分子检测方法。该图最初由Daryl Leja创建。圆圈中的数字表示每个DPC使用的方法。EBs,胚状体。

[div_box]

Creating null alleles: definition and challenges

Para_01
  1. 一种理解基因功能的有效策略是去除该基因或其蛋白质产物,并进行一系列实验来研究其丢失如何影响分子和细胞表型。
  2. 当前阶段MorPhiC联盟的一个重要目标是应对启动全基因组空等位基因创建和表型分析工作中的障碍。
  3. 一些障碍包括开发一个稳健的策略来创建空等位基因(参见框2中的操作定义),确定质量控制步骤以确保基因的所有等位基因都是空等位基因,以及设计可扩展且信息丰富的实验来研究空等位基因的细胞和分子表型。
  4. 系统地编目空等位基因的表型将推进我们对基因功能的理解,而对分子数据的全面分析将提供额外的背景,以解释基因如何与其他基因相互作用以产生特定的细胞表型。
Para_02
  1. CRISPR–Cas9已成为主要的基因组编辑和基因操作工具。
  2. 最初发现CRISPR相关的Cas9蛋白可以重新编程以靶向所需的基因组序列,随后在真核细胞中的应用,提供了前所未有的能力来操纵遗传和表观遗传信息。
  3. MorPhiC团队正在使用几种基于CRISPR的策略来创建无效等位基因——包括通过改变局部遗传信息、表观遗传信息或目标蛋白质稳定性——每种方法都有其独特的优势,这取决于正在研究的基因以及用于表征无效等位基因的细胞模型和表型分析,如图3所示。

Fig. 3: Comparison of experimental strategies for null-allele generation.

- 图片说明 - 星号表示在某些情况下,所有异构体可能都被降解标记,或者降解标记可能会显著改变基因功能。

[div_box]

Genome editing coding sequence to create null allele

对基因组编辑编码序列以创建无效等位基因

Para_01
  1. 共递送Cas9核糖核蛋白和寡核苷酸修复模板可以高效地以核苷酸精度工程化小突变。通过这种策略,可以在基因体内引入一个提前终止密码子(PTC)。在PTC下游添加一个简并碱基(称为PTC + 1)能够识别携带两个完整修饰目标拷贝的细胞,有效避免由于双链断裂处频繁的基因组重排导致的不期望的靶向效应,而不会突变前间隔序列邻近基序位点。
  2. 为了验证这一策略,将克隆与通过删除关键外显子或整个编码序列来设计的无效等位基因克隆进行比较。
  3. 另一种稳健的基因敲除策略是敲入两个供体载体(使用CRISPR介导的同源定向修复),每个载体包含不同的选择盒。
  4. 为了便于多细胞分化系统中的下游多重表型分析,在同源定向修复敲入步骤中可以引入基因特异性条形码,使得每个基因敲除携带独特的条形码,并且多个基因敲除可以汇集用于分化,然后进行单细胞RNA测序(scRNA-seq)分析和解复用。
  5. 这些实验设计与未来扩展到更多基因和细胞背景兼容,这将对全基因组生产工作至关重要。

Transcriptional repression of target promoter to create null allele

通过对目标启动子的转录抑制来创建无效等位基因

Para_01
  1. CRISPR干扰(CRISPRi)使用与KRAB结构域蛋白融合的失活Cas9酶(dCas9),是一种特征明确的表观遗传编辑器。
  2. 当靶向转录起始位点时,该方法在CRISPR–dCas9单导向RNA目标位点周围的局部窗口中导致H3K9me3的靶向沉积,从而在短暂靶向时沉默大多数蛋白质编码基因或远端增强子。
  3. 最近,几个研究小组报告了更稳定的基于CRISPR的DNA甲基化表观遗传编辑器的发展。
  4. DNA甲基化在哺乳动物发育和整个生命过程中受到高度调控,并且是基因表达的关键调节因子。
  5. 该联盟还将使用CRISPRoff方法,这是一种可编程的表观遗传记忆写入器,由失活的Cas9与KRAB、DNMT3A和DNMT3L结构域融合组成。
  6. 该复合物通过DNA甲基化的沉积强有力且持久地抑制基因表达。
  7. CRISPRoff复合物的短暂表达启动了高度特异性的基因沉默,这种沉默可以被记住并通过多达450次细胞分裂传递。
  8. 关键的是,CRISPRoff基因沉默可以通过dCas9–TET DNA去甲基化酶融合蛋白实现的靶向DNA去甲基化逆转,这一构建体被称为CRISPRon。
  9. CRISPRoff可以完全沉默基因表达,从而功能性地创建无效等位基因,类似于人类细胞通过基因表达的表观遗传沉默自然关闭基因的方式。
  10. 该方法可以与引导RNA库一起部署,允许在单细胞水平上对数百个基因的无效等位基因表型进行高扩展性和多重分析。

Inducible and reversible degradation of target proteins

可诱导和可逆的目标蛋白质降解

Para_01
  1. MorPhiC使用的另一种生成无效等位基因的策略是基于降解子的靶向蛋白耗竭。利用CRISPR引导的同源定向修复,可以使用生长素诱导的降解子(AID)系统在人类iPS细胞的基因组中重新设计并敲入一个敏感的AID于目标基因末端,从而生成可诱导和可逆的无效等位基因表型。
  2. MorPhiC团队还将实施其他降解子策略,如dTAG和HaloPROTAC,这些策略使用内源性E3连接酶,与AID系统中使用的外源TIR1表达形成对比。
  3. 降解子技术的化学诱导和可逆性质使得目标蛋白可以在几分钟到几小时内被耗尽,并研究人类基因无效等位基因的即时和长期后果。
  4. 目标蛋白的急性耗竭将特别有助于表征必需基因的无效等位基因,因为通过传统的遗传和表观遗传扰动无法针对这些基因,否则会导致细胞死亡。
  5. 在降解子工程过程中,每个等位基因都将被设计成具有基因特异性的条形码。因此,一旦生成,含有降解子标记等位基因的细胞可以汇集在一起进行筛选类型的竞争实验或单细胞多组学分析,通过条形码测序同时分析数百个无效等位基因。
  6. 由于该系统是可诱导和可逆的,可以控制无效等位基因生成的时间,并通过简单地从系统中去除配体(生长素)来替换培养基来进行救援实验。

Prioritization of genes for null alleles

Para_01
  1. 每个MorPhiC DPC根据团队在细胞模型和实验系统方面的专长以及研究人员感兴趣的生物学问题,优先考虑了一组基因。联盟网站(https://morphic.bio/)包含了每个中心的基因列表和一套交互式可视化工具,以描述每个基因集。
  2. 这些基因集随着实验数据的生成和更广泛的科学界的意见不断更新和添加。由于MorPhiC最终旨在为所有蛋白质编码基因创建一个空等位基因表型目录,初始阶段打算针对代表广泛蛋白质功能类别的基因,并评估它们的分子和细胞空等位基因表型。
  3. 当前的目标基因集中,发育调节因子和转录因子的比例过高。这是由于对理解它们在调控许多生物过程中的作用有更广泛的兴趣,包括可以通过高度可扩展的检测方法如转录组分析和染色质可及性分析来评估的基因表达。
  4. 一小部分小鼠致死和存活基因的同源基因被明确选择,以便与IMPC小鼠表型结果进行比较。
  5. 其他资源如癌症依赖图谱、在线孟德尔遗传数据库和gnomAD也帮助选择了基因,其中包括编码必需转录因子和发育调节因子的基因。

Prioritization of cellular models

Para_01
  1. 基因在不同的人类细胞类型中可能具有不同的功能,这是合理的。
  2. 由于诱导多能干细胞(iPS细胞)可以模拟各种发育谱系和人类细胞类型,它们将被用作MorPhiC初始阶段的细胞模型。
  3. 为了促进开放获取任务,KOLF2.2J iPS细胞系——源自一个公开可用的北欧男性细胞系(KOLF2.1J)——将在所有DPC中通用,从而能够在相同的遗传背景下比较表型。
  4. 然而,承认遗传多样性对修饰表型的贡献,一部分无效等位基因将在额外的细胞系中进行评估,包括一组代表两性及遗传多样性的iPS细胞系。
  5. 在MorPhiC中使用的iPS细胞衍生模型系统涵盖了三胚层分化成三个胚层,包括作为特殊中胚层组织的心肌细胞、作为前体和晚期内胚层谱系的胰腺β细胞、包括滋养层在内的胚胎外谱系细胞以及包括神经外胚层和多巴胺能神经元在内的神经谱系细胞。
  6. 这些谱系因其与正常和人类疾病发展的相关性而被优先考虑。
  7. 这些多细胞系统在细胞组成和分化行为的可重复性方面表现出不同程度的复杂性。
  8. 在整个项目中识别扩展瓶颈和成本驱动因素将为工作流程改进提供信息。
  9. 通过识别和克服技术障碍所获得的知识将有益于未来的努力,并为对研究具有不同程度复杂性的细胞系统的广大科学界提供宝贵的指导。
  10. 通过交叉比较和整合从这些多样化的多细胞系统中获得的表型数据集,MorPhiC计划旨在实现对人类基因在不同细胞环境中功能作用的广泛理解。

Phenotyping strategies







请到「今天看啥」查看全文