随着生命科学技术的不断进步,我们正逐步深入探索生物体内基因表达的复杂图景。传统的基因组学技术虽然揭示了大量关于基因功能的知识,但缺乏对基因表达在空间维度上的了解,这使得我们对细胞行为及其微环境相互作用的理解仍然局限。靶向空间转录组学(Targeted Spatial Transcriptomics, TST)应运而生,提供了在组织切片中解析基因表达的强大能力,帮助研究人员在单细胞乃至亚细胞水平上追踪基因的活动。然而,如何选择合适的探针集,以确保能捕捉到最具代表性和最具生物学意义的基因表达特征,仍然是研究中的关键挑战。11月18日 Nature Methods的研究报道 "Probe set selection for targeted spatial transcriptomics",介绍了Spapros,一个新兴的端到端探针集选择工具,以其独特的设计理念和多维度的评估方法,正试图解决这一挑战。该研究不仅优化了探针集的特异性和灵敏度,还结合了细胞类型识别和空间变异恢复的双重需求,使其成为靶向空间转录组学研究中的一项创新突破。
探针集选择在靶向空间转录组学中的重要性
靶向空间转录组学(Targeted Spatial Transcriptomics, TST)是一项突破性的前沿技术,它通过检测特定基因的表达来解析组织中不同细胞类型的空间分布,提供单细胞及亚细胞级别的分辨率。这种方法不仅揭示组织中细胞的类型和状态,还能够展现细胞之间的相互作用及其在空间中的基因表达变化,为揭示复杂生物系统中的空间异质性提供了不可替代的工具。
在靶向空间转录组学中,探针集的选择至关重要,它直接决定了实验能捕捉到的基因表达信息的广度与深度。探针集选择的质量直接影响实验结果的准确性和信息量。因此,一个最优的探针集应涵盖代表性细胞类型的标志基因(marker genes),并捕捉细胞内部的基因表达异质性,从而揭示细腻而复杂的生物学信息。
Spapros:创新的探针集选择方法
为了解决传统探针集选择方法的局限性,研究人员开发了一种名为“Spapros”的端到端探针集选择工具。Spapros不仅优化基因集的特异性以提高细胞类型的识别精度,还全面考虑了细胞类型内部的表达变异,结合探针设计的技术限制和生物学先验知识,从而确保基因选择的最优性。
传统的基因集选择通常仅基于少数标志基因,难以捕捉空间信号的连续性或新的细胞状态。Spapros通过结合多个选择标准,如细胞类型识别、表达变异的恢复以及探针设计的技术限制,在多维度上进行优化,显著提升了实验性能。
探针集选择的挑战以及对所选基因集进行评估的过程(Credit: Nature Methods)
探针集选择问题的示意图(a):展示了从单细胞RNA测序(scRNA-seq)数据中选择基因集用于靶向空间转录组学实验的过程。这一基因集的选择旨在识别感兴趣的细胞类型,并捕捉超越细胞类型本身的细胞变异。探针设计限制的示意图(b):图中展示了为了测量特定基因的表达,探针设计中需要考虑的技术限制。探针的设计需要具有足够的特异性,确保所设计的序列不会与其他基因的RNA发生交叉结合。基因集性能比较(c):通过对不同特征选择方法所选基因集的性能进行比较,包括基于主成分分析(PCA)、差异表达(DE)等方法。此外,还引入了一些基线比较,如随机选择基因和最高表达基因集的选择。测试指标主要分为以下几类:变异恢复、细胞类型分类、基因冗余、计算时间和实验限制的满足情况。
Spapros的设计理念
Spapros的设计基于以下核心目标:
细胞类型识别(Cell Type Identification):优化基因选择,确保能精确区分不不同细胞类型,从而实现空间分析中细胞类型的准确标定。
变异捕捉(Variation Recovery):选择能捕捉细胞间及同一细胞类型内基因表表达变异的基因,以揭示细胞的空间异质性。
探针设计的技术限制(Technical Constraints on Probe Design):探针设设计过程中必须考虑特定基因的序列特性,确保探针具有足够的特异性和灵敏度,避免非特异性结合。
Spapros结合多种评估手段,如主成分分析(Principal Component Analysis, PCA)和差异表达分析(Differential Expression, DE),并考虑技术限制进行基因集优化选择。例如,在针对人类肺组织的实验中,Spapros选择了一组针对成年肺组织的探针集,并通过SCRINSHOT实验验证其有效性。结果表明,这些探针不仅能够精准识别目标细胞类型,还能够捕捉同一细胞类型之间的空间变异,展示了其设计的精确性和有效性。
Spapros 探针集选择的整体流程(Credit: Nature Methods)
探针集选择的流程示意图:Spapros 的完整探针集选择流程,涵盖基于主成分分析(PCA)和差异表达(DE)方法的基因选择构建模块。通过优化基因选择、设计探针序列,并考虑特定技术的技术限制,Spapros 能够提供一个最优的组合探针集,无需进一步的基因过滤即可直接生成。转录组范围的探针设计流程:Spapros 首先通过探针设计组件过滤掉无法为其设计探针的基因,这些基因由于技术限制如 GC 含量、熔解温度等不符合要求。此过程确保最终探针的结合位置不重叠,使用图搜索算法生成具有最佳热力学和序列特性的非重叠探针集。基因集的最终选择和性能比较:Spapros 为 Madissoon2020 人类肺数据集选择的探针集(50 个和 150 个基因)与包含 8,000 个 HVGs 的参考基因集的 UMAP 比较。结果表明,Spapros 选择的基因集能够有效保留细胞类型的多样性。
探针集的评估方法与结果
为了系统地评估探针集的有效性,Spapros团队开发了一套多维度的评估指标:
细胞类型识别准确率(Classification Accuracy):衡量探针集在区分不同细胞类型时的表现。
捕获细胞类型的百分比(Percentage of Captured Cell Types):反映探针集是否涵盖所有潜在的细胞类型。
表达变异的恢复能力(Variation Recovery Metrics):评估探针集在重构全基因组表达变异方面的表现。
研究结果显示,Spapros在细胞类型识别和表达变异恢复方面均显著优于传统方法。例如,在多重误差鲁棒荧光原位杂交(MERFISH)数据集中,Spapros探针集的细胞类型识别和空间变异恢复的相关性高达0.79,表明其探针能够有效捕捉到空间中的细胞变异。
此外,研究人员将Spapros与其他基因选择方法在不同数据集上进行对比。在Madissoon2020肺数据集中,Spapros选择了50和150个基因,通过UMAP嵌入分析探针集的性能,结果显示Spapros选择的探针集能够有效保留细胞类型的多样性特征。尤其对于类似的细胞类型(如1型和2型树突细胞),Spapros选择的基因组合(如CST3、FCER1A、IL1B)表现尤为出色,使细胞类型识别和空间变异恢复均优于其他传统方法。
在对心脏和肝脏组织的实验中,Spapros在选择用于检测纤维化标志物的探针集方面也展现出显著优势。例如,在纤维母细胞与心肌细胞的区分中,Spapros选择的探针集显著提高了检测准确率,尤其在TGFB1和COL1A1等关键基因的检测上,表现出卓越的灵敏度和特异性。这些基因在纤维化过程中起重要作用,证明了Spapros不仅能精确区分细胞类型,还能捕捉疾病相关的关键状态。
Spapros的优势与创新
Spapros允许用户结合已有的基因知识,增加对特定疾病或感兴趣基因的覆盖。例如,在慢性阻塞性肺病(COPD)患者组织的分析中,研究人员使用Spapros设计了特定的探针集,涵盖了与炎症相关的基因如IL6、TNF和CCL2。这些探针成功捕捉了肺组织中与炎症相关的细胞群体,揭示了这些基因在不同细胞类型中的异质性表达。这些发现有助于理解COPD的病理机制,展现了Spapros在疾病相关探针设计中的显著优势。Spapros采用模块化设计,并通过Snakemake进行大规模探针集评估。该方法支持高性能计算,使得用户能够在较短时间内评估多个探针集的表现。在包含超过10万个单细胞的高通量数据集中,Spapros在不到8小时内完成了探针集的评估和优化,相比传统方法减少了近50%的计算时间。此外,Spapros支持并行处理,能够在多个节点上同时运行,极大提升了大规模数据集的分析效率。这些改进使Spapros在处理高复杂度的空间转录组学数据时展现出强大的性能。许多探针集选择方法偏重于细胞类型的区分,而忽略了基因表达变异的捕捉。Spapros通过对细胞类型识别与表达变异捕捉的双重优化,确保探针集既能明确区分细胞类型,又能反映细胞内部的基因表达变化。例如,在对肺组织的研究中,Spapros探针集成功捕捉了气道上皮细胞中FOS基因的空间梯度变化,表明即使在未解离的组织中,FOS也能体现细胞应激反应。在对MERFISH数据集的评估中,Spapros所选探针集在检测IGF1和PDGF等关键生长因子的空间梯度时表现尤为突出,这些因子在肿瘤微环境调控中具有重要作用。因此,Spapros不仅能够捕捉正常组织中的空间变异,还可以应用于复杂的疾病环境,为肿瘤微环境的研究提供关键线索。
Spapros与其他方法的比较
在多项对比实验中,Spapros探针集与其他十种流行的基因选择方法进行了比较。这些方法中,有些偏重于细胞类型识别(如NS-Forest和SMaSH),而另一些偏重于变异恢复(如SCMER和SelfE)。Spapros通过兼顾这两方面需求,表现出优于所有其他方法的综合性能。
例如,在针对肺和心脏组织的大规模基准测试中,Spapros在50基因和150基因探针集的选择中均表现优异,尤其在细胞类型识别和变异恢复方面。此外,Spapros在探针设计中充分考虑技术限制,使其选择的探针集在实际应用中更加可靠,避免了因探针设计失败导致的性能下降。
在对比MERFISH数据集上的表现时,Spapros探针集在细胞类型识别和变异恢复的综合得分上显著优于其他方法。Spapros通过自动化并行的高性能计算,使其在不同基因集大小的选择中,计算时间始终保持在合理范围内,尤其在需要同时考虑细胞类型识别和变异恢复的情况下,Spapros表现最为稳定。
在实际应用中,NS-Forest利用随机森林方法选择标志基因,而SMaSH则通过聚类进行标志基因识别。然而,在对肺组织和心脏组织的实验中,Spapros探针集的F1-score和均方误差(MSE)均优于这两种方法,特别是在小规模基因集选择上(如50个基因),显示出更高的准确性和稳定性。此外,SCMER在恢复空间变异方面的表现略逊一筹,因为其未充分考虑技术限制,而这正是Spapros的优势所在。
Spapros的实际应用:肺组织的SCRINSHOT实验
为了验证Spapros在实际空间检测中的性能,研究人员设计并进行了基于SCRINSHOT技术的人肺组织实验。在这个实验中,Spapros选择了一组包含64个基因的探针集,成功识别了目标细胞类型,并检测到不同细胞类型之间的空间变异。
在实验中,所有目标细胞类型的组织分布与已知的细胞结构相吻合,例如在下气道和肺泡空间中的分布。这些结果表明,即使探针集的规模相对较小(仅64个基因),Spapros依然能够实现可靠的细胞类型识别和空间表达模式检测。这与以往高通量空间技术需要更大基因集才能达到类似分类效果的情况形成鲜明对比,证明了Spapros探针集的高效性和精确性。
进一步分析中,研究人员使用FISH(荧光原位杂交)技术验证了这些发现。结果表明,Spapros选择的探针在检测IGFBP7和RGCC基因表达时,与单细胞RNA测序(scRNA-seq)数据高度一致,相关性系数高达0.83,进一步证明了Spapros探针集在实际生物样品中的高效性和准确性。
Spapros为靶向空间转录组学中的探针集选择提供了一种新颖且全面的方法,通过基因选择和探针设计的双重优化,实现了细胞类型识别和基因表达变异恢复的双重目标。这使得Spapros不仅在细胞类型识别中表现优异,还能揭示细胞内部的空间表达模式。
随着空间转录组学技术的不断发展,探针集的需求也将变得更加复杂。Spapros的模块化设计和灵活性使其能够适应不同的实验需求,例如在疾病研究中,用户可以预先选择感兴趣的基因,从而聚焦特定的病理机制。此外,随着更多单细胞RNA测序(Single-Cell RNA Sequencing, scRNA-seq)数据的发布,Spapros可以利用这些数据构建更全面的参考数据库,以提高探针集的普适性和可靠性。
未来,Spapros还可以进一步优化,以适应更大规模的空间蛋白组学(Spatial Proteomics)实验,例如CODEX等技术,拓展探针设计的应用场景。通过结合空间转录组学与蛋白组学数据,Spapros有望为揭示细胞行为的复杂调控网络提供更有力的工具和证据。总之,Spapros的开发为靶向空间转录组学的实验设计提供了更为高效和精准的工具,其在探针集选择和设计上的双重优化将极大推动未来空间转录组学研究的应用和发展。
Kuemmerle, L.B., Luecken, M.D., Firsova, A.B. et al. Probe set selection for targeted spatial transcriptomics. Nat Methods (2024). https://doi.org/10.1038/s41592-024-02496-z
责编|探索君
排版|探索君
转载请注明来源于【生物探索】
声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!