第 11 章 寻找新的癌症靶点 目录 11.1.2 作为基因和蛋白质表达改变主调节因子的药物靶点 前言 理想情况下,抗癌药物应杀死癌细胞,并让正常细胞不受影响。然而,实现这一主要目标极具挑战性,因为癌细胞与正常细胞之间的生化差异很少,而且癌细胞种类多样(见第 2 章)。历史上,抗癌药物主要靶向快速增殖的细胞中活跃的蛋白质,比如细胞分裂中的代谢酶或在 DNA 复制中起重要作用的 DNA 聚合酶和拓扑异构酶。然而,这些过程并非癌细胞特有,相关药物也会影响所有具有快速更新的正常细胞,比如皮肤、毛发、胃肠道和骨髓等,从而导致癌症化疗中的许多常见副作用。
近年来,对激素信号传导的深入研究使得靶向核激素受体成为可能,而信号通路(signalling pathways)的解析也突显了信号蛋白(如生长因子受体和激酶)作为癌症药物靶点的潜力。癌症基因组数据的迅速积累以及我们对癌症分子基础的理解的进展,增加了发现更有效、更低毒的疗法的希望,这种发现不再像过去那样靠偶然的机会。为此,需要开发特定的计算模型,从对大量组学数据和肿瘤发生(tumorigenesis)数学模型的分析中识别新的候选癌症靶点,我们将在本章中讨论这一内容。
特别是,我们将回顾如何系统地比较癌细胞和正常细胞的分子水平,帮助识别新的具体靶基因,通过分析候选基因列表来实现这一点(见第 11.1 节)。或者,考虑到癌症可以被视为一种网络性疾病(见第 2 章),许多最新的癌症药物靶点识别方法依赖于对支持肿瘤发生的网络的分析和建模(见第 11.2 节),并通过分析其功能的扰动来确定癌症的弱点,最终将导致基于框架模型的建模框架的形成,允许我们识别具有高效力和特异性的靶点组合(见第 11.3 节和第 11.4 节)。
11.1 从基因列表中寻找靶点 一个典型的系统生物学项目在识别药物靶点时,首先收集数据,如通过高通量技术(high-throughput technologies)获得的基因组或转录组数据(参见第 3 章)。经过适当的数据归一化和统计分析(参见第 4 章至第 6 章)后,通常会得到包含基因和蛋白质的列表,这些基因和蛋白质可能是识别新药物靶点的良好候选。该列表通常包含癌细胞和正常细胞之间差异表达的基因,或位于癌症样本中经常扩增或缺失的基因组区域中的基因。然后,可以尝试通过对列表中的基因进行优先排序(prioritising)(参见第 11.1.1 节)来寻找最有前景的靶点,或者通过识别导致列表中基因失调的主调节因子(master regulators)来从列表外部识别出好的候选靶点(参见第 11.1.2 节)。
11.1.1 基因优先排序 传统的连锁分析或 DNA 样本中的染色体畸变研究可能会导致包含一个或多个癌症基因的基因组区域的识别,这些基因的破坏会导致或允许肿瘤形成。这些癌症基因编码的蛋白质在癌症治疗中具有明显的潜力。然而,识别出的基因组区域通常包含数十到数百个候选基因。同样,通过基因或蛋白质表达技术分析癌症或正常样本,通常可以识别出许多有趣的蛋白质(interesting proteins),其中只有少数是致癌的,并可能成为癌症靶点。在这两种情况下,由于癌症候选基因的实验验证是一个漫长而昂贵的过程,因此在候选基因列表中识别出最有前景的癌症基因或至少将基因从最可能致癌排序到不太可能致癌是非常重要的。
基因优先排序通常基于我们对基因已有的了解:最有前景的候选基因通常是已知在某些生物过程(biological process)中对癌细胞重要的基因,或与其他已知癌症基因共享相似性(如共表达)的基因。由于我们对基因和蛋白质的知识和信息在当今分布于多个数据库中(参见第 4.5.1 节和第 4.7 节),整合异质数据和知识的计算方法近年来作为基因优先排序(gene prioritisation)的有力工具出现(Giallourakis 等人, 2005)。例如,一些方法尝试自动比较候选基因的已知功能注释,以自动化基因狩猎的过程(Perez-Iratxeta 等人, 2002;Turner 等人, 2003;Tiffin 等人, 2005)。另一种方法使用算法在共享信息的不同疾病间进行搜索,特别是在不同的癌症中,通过比较候选基因与已知癌症基因的相似性来排名候选基因(Aerts 等人, 2006;De Bie 等人, 2007)。
11.1.2 作为基因和蛋白质表达改变主调节因子的药物靶点 当候选基因列表来自基因表达数据分析时,通常包括癌细胞和正常组织之间差异表达的基因列表。可能会发现,通过第 11.1.1 节中提到的方法在列表中寻找潜在靶点是无效的。事实上,单凭这些基因的列表并不足以确认干扰这些差异表达基因会逆转或破坏致瘤表型。实际上,这些分子中的大多数可能只是肿瘤发生的结果,而不是原因。
此外,癌细胞变化中最重要的驱动因素(drivers)(参见第 2 章)可能在差异表达列表中缺失,因为它们的信号可能会通过细胞信号级联被放大,产生最明显的下游效应。比喻地说,雪崩的原因可能是小石头的轻微移动,但这个小动作在雪崩发生时完全被大量大石头的坠落所掩盖。
一种控制失调细胞信号的高效思路是靶向那些位于信号传导上游的分子。这些上游的致癌基因也可以称为基因和蛋白质表达改变的主调节因子。它们通常可以通过应用图论方法识别出来。
使用软件和数据库如 JASPAR(Portales-Casamar 等,2010)、Allegro(Halperin 等,2009)、Weeder(Pavesi 等,2004)、Pscan(Zambelli 等,2009)以及商业网络分析管道如 BIOBASE 的 ExPlain™ 和 geneXplain™,主调节因子以如下方式识别:从一组差异表达基因中使用统计和优先排序方法(参见第 6.3 节和第 11.1.1 节),分析这些基因的启动子中是否存在过度表达的调节基序(例如,DNA 转录因子结合位点)以识别一组能够调控该基因集的潜在转录因子。
在全局基因调控网络中确定这些转录因子的位置,并将其作为主调节因子集的锚点。通过跟踪这些锚点上游的路径进一步分析调控网络。主调节因子定义为在一定数量的上游步骤后,这些路径趋向于收敛的节点,即最大化在某一主节点下游一定步数内可到达锚节点数量的节点。当然,需要进行细致的统计分析,以确保潜在的主调节因子具有显著的路径收敛点,并估算相应的 p 值。
image-20241103105745629 图 11.1 过表达调节基序的识别 。
从一组差异表达基因中,使用 JASPAR(Portales-Casamar 等,2010)和 Weeder(Pavesi 等,2004)识别出过表达的调节基序。(A)基因表达在过表达 MYC 的乳腺癌细胞系与通过小干扰 RNA 介导敲除 MYC 的相同细胞系之间进行了比较(Cappellen 等,2007)。(B)基因表达在 TP53 突变和未突变的乳腺癌肿瘤之间进行了比较(Bertheau 等,2007)。图像改编自 Meng 等(2010)。
11.2 从简单网络分析中预测药物靶点 在本节中,我们考虑这样一种情境:我们有一个对癌症具有重要性的过程的网络模型,例如在第 4.9.2 节中描述的 RB 通路,或在第 6.5.2 节中通过基因表达数据差异分析识别的子网络。我们希望在该模型中识别出重要的节点作为潜在的药物靶点。在网络中设计干预措施以获得预期结果是一个非平凡的问题,尤其是考虑到网络包含复杂的反馈调节回路的组合。有了少量的前提信息,最简单的方法就是通过攻击具有枢纽(hubs)和路由器(routers)特性的节点来破坏网络的连接性。
确实可以证明,功能最重要的蛋白质在活细胞中有成为枢纽的趋势,即与许多其他蛋白质通过蛋白质-蛋白质相互作用(PPIs)和各种调节机制相连接(Jeong 等人,2001)。枢纽直观上是破坏网络的良好靶点,因为移除一个枢纽可以极大地改变网络的特性,如其连接度或连通性。
此外,从图论的角度我们知道,改变网络属性的显著方式不仅是移除具有最高连接度的节点(枢纽),还可以通过移除具有最高中心性(centrality)的节点(路由器节点)。中心性直观上是衡量一个节点在图中距离中心多远的度量。图的中心可以大致定义为一个最小化到其他节点距离总和(例如路径长度)的节点。实际上,中心性的度量有很多种,介数(betweenness)是最常用的一种。为了计算介数,需要找到连接图中每个节点的所有最短路径。根据其定义,一个节点的介数大致为通过该节点的最短路径的数量。高介数的节点并不一定高度连接。例如,想象一个由两个密集连接的集群构成的图,这两个集群之间通过一个相对较薄的桥(bridge)相连。桥中的节点可能具有高介数但不是最高连接度。移除这些节点可以将图分割为两个不相连的部分,从而阻断两个集群之间的通信。
基于这个理念,最简单的癌症药物靶点预测方法之一是分析潜在涉及肿瘤进展(tumour progression)的 PPIs 网络或子网络,通过列出这些网络中的最重要的枢纽和路由器节点来确定。通过影响枢纽或路由器节点,可能会显著扰乱癌症网络的功能。然而,这种方法对于癌症治疗而言前景不佳,因为影响这些节点可能不仅会破坏驱动肿瘤发生的网络的功能,还会破坏正常细胞的基本功能。因此,这种疗法无法区分癌细胞和正常细胞,且可能过于毒性。为了解决这个问题,可以引入特定于所分析癌症网络的枢纽和路由器的概念。例如,特定枢纽可以是癌症特定网络中连接度异常高的节点,基于基因组规模分子相互作用网络的结构。实现这一目标的最简单方法是使用相对连接度和相对中心性作为待分析网络与基因组规模全局网络之间连接度的比率。
image-20241103110749117 图 11.2 网络枢纽和路由器 。
在该网络中,节点大小与节点的连接度(邻居数量)成比例,灰色反映了介数值(白色节点具有最低介数,黑色节点具有最高介数)。枢纽节点不一定是路由器,路由器也不一定是枢纽。
11.3 作为分子机制中脆弱点的药物靶点 癌细胞和正常细胞一样,具有一定的稳健性(参见第 9 章)。识别药物靶点的另一种方法是寻找癌性分子机制中的脆弱点(fragile points)。理想情况下,这些脆弱点应该是癌细胞特有的,而不会影响正常细胞。根据定义,脆弱点是分子网络中的一个参数,其变化将对期望的网络特性产生最大的影响(例如 ATP 生成、凋亡激活或抑制细胞生长)。
第 10 章回顾了定义生物网络动态的最敏感参数的几种数学方法,包括:在代谢控制分析中计算参数敏感性(参见第 10.5 节)、在复杂反应网络中识别限速位点(参见第 10.7 节),以及使用流量平衡分析(Flux Balance Analysis,FBA)来确定酶的活性变化如何影响反应网络中的最大重要流通量数(参见第 10.1 节)。下面举几个网络建模在提出新药靶方面的例子。
在 Faratian 等人(2009)的研究中,开发了一个连续动力学模型,用于预测对受体酪氨酸激酶(Receptor Tyrosine Kinase,RTK)抑制剂治疗的耐药性。该数学模型包括 RTK 抑制剂抗体结合、HER2/HER3 二聚化和抑制、AKT/丝裂原活化蛋白激酶(MAPK)串联,以及 PTEN 的调控特性。该模型使用来自癌细胞系的反相蛋白阵列(Reverse-Phase Protein Arrays,RPPA)定量磷蛋白表达数据进行了参数化(参见第 3 章)。模型的模拟显示,PTEN 是一个有前景的药物靶点,作为对抗 HER2 抑制剂耐药性的关键决定因素。该预测在 122 例乳腺癌患者中得到了进一步验证。
在 Sahin 等人(2009)的研究中,构建了一个耦合 G1/S 细胞周期转变的 ERBB 信号布尔模型。通过使用该模型进行的失功能体外分析,确定了对 de novo 曲妥珠单抗耐药性乳腺癌的潜在治疗策略。研究表明,组合靶向 ERBB 受体或其他关键信号中介并不能有效治疗 de novo 曲妥珠单抗耐药细胞。与此同时,MYC 被确定为耐药性乳腺癌细胞中的一个新的潜在靶蛋白。
11.4 预测药物靶点组合 实验和理论研究均表明,影响癌症网络行为最有效且可能是唯一可行的方法是在同一时间影响多个脆弱点。在临床上,这种方法被称为组合疗法(combinatorial therapy)。需要注意的是,药物可以同时影响多个靶点,因此可能实现单药多靶的治疗效果。
最近,利用合成致死(synthetic lethality)概念治疗癌症的想法引起了广泛关注。合成致死是对模型生物中基因敲除实验的观察。分别敲除基因 A 和基因 B 可能对细胞功能没有影响,但同时敲除基因 A 和 B 则可能是致死的。已知癌症基因组相对于正常基因组已发生变异,因此在癌细胞中某些基因可能丧失或突变而丧失功能。如果可以识别出与这些丧失功能的基因合成致死作用的其他非必需基因,这就可以成为特定癌症疗法的基础(抑制该配对基因的功能将仅杀死癌细胞,而不会影响正常细胞)。基于此理念,曾建议使用 PARP1 抑制剂治疗 BRCA1 突变的乳腺癌(Helleday,2011)。
然而,肿瘤细胞及其基因异质性(参见第 2.3 节)的现实可能更加复杂,且不仅限于合成致死配对。可能存在包含多于两个元素的合成致死组合。然而,由于可能的基因组合数量庞大,通过大规模筛选进行实验发现并不现实。因此,数学建模可以帮助预测最有前景的药物靶点组合,从而通过基因调控网络的分析和建模识别它们。
在该领域中,最常用的概念之一是最小干预集(minimal intervention set)(参见第 11.1 节),该概念允许识别药物靶点组合。寻找最小割集(minimal cut set)(一种仅使用敲除的最小干预集)的示例在图 11.3 中展示。对于大型复杂网络,列出所有最小干预集的任务很容易变得计算上不可行。这就需要实现近似算法,旨在列出最有前景的药物靶点组合并对它们进行优先排序(Vera-Licona 等人,2012)。
BOX 11.1:最小干预集 最小干预集(minimal intervention set)是敲除(基因或蛋白质的删除)和敲入(基因和蛋白质的过表达)的组合,从而诱导期望的信号网络行为(Klamt,2006;Samaga 等人,2010)。期望的网络行为可以是将某些网络节点固定在特定状态(在布尔建模中)、中断网络中从一组源节点到目标节点的路径(在网络的结构分析或代谢级联的建模中)、或阻碍任何涉及特定反应的可行稳态流量分布(在稳态流量分析中)。
如果该干预集不存在任何能够实现相同目标的子集,则称该干预集为最小的。因此,可能会有不同大小的最小干预集(见图 11.3)。寻找最小干预集的问题与寻找最小割集和最小击中集的问题有关。
image-20241103111935105 图 11.3 在玩具网络中找到最小割集以破坏信号传导 。
一个玩具网络包含两个源节点,即输入,和两个目标节点,即输出。在这里,最小割集旨在中断从源节点到目标节点的所有可能路径。存在三个大小为 2 的最小割集和两个大小为 3 的最小割集。
练习 在图 11.3 中,在节点 E 和节点 G 之间添加一个连接。这将如何影响最小割集? 解释为什么 PARP1 抑制剂应特异性地杀死某些类型的癌细胞而不是正常细胞。 重点 使用系统生物学方法在癌症生物学中寻找靶点,旨在破坏癌细胞中恶性信号传导(导致增殖停止)或存活信号传导(导致死亡)的功能。用于治疗时,靶点应当 (1) 对癌细胞的影响远大于正常组织细胞,并且 (2) 不引起毒性等副作用。 如果已知参与肿瘤形成的网络结构,可以测试该网络中特定的枢纽(hub)和路由器(router)节点作为癌细胞靶向的候选节点。 结合基因表达、基序富集分析和网络结构,可以识别作为潜在治疗靶点的主调节因子(master regulator)节点。 动态网络建模结合参数敏感性分析可以发现脆弱点(fragile points)。这些脆弱点可能暗示潜在的治疗靶点。