专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
生信菜鸟团  ·  第一眼差点就被这个变化倍数唬住了 ·  4 天前  
生物探索  ·  Nature Medicine | ... ·  5 天前  
生物制品圈  ·  FDA 拒绝批准 Atara 公司「现货型 ... ·  4 天前  
生物制品圈  ·  翻译协作 | mRNA疫苗的研发趋势 ·  4 天前  
51好读  ›  专栏  ›  生信菜鸟团

scRNA分析之后,如何看待结果和进行实验验证?这篇文章告诉你

生信菜鸟团  · 公众号  · 生物  · 2025-01-16 14:51

正文

Basic Information 

  • 英文标题: Implementation and validation of single-cell genomics experiments in neuroscience
  • 中文标题:在神经科学中实施和验证单细胞基因组学实验
  • 发表日期:03 December 2024
  • 文章类型:Review Article
  • 所属期刊:Nature Neuroscience
  • 文章作者:Marco Colonna | Naomi Habib
  • 文章链接:https://www.nature.com/articles/s41593-024-01814-0

Abstract 

Para_01
  1. 单细胞或单核转录组学是一种用于识别细胞类型和细胞状态的强大工具。
  2. 然而,从这些分析得出的假设,包括基因表达信息,需要得到验证,并且它们的功能相关性需要被确立。
  3. 验证的选择取决于许多因素。
  4. 在此,我们介绍正交和功能验证实验的类型,以加强使用单细胞和单核转录组学获得的初步发现,以及这些方法的挑战和局限性。

Main 

Para_01
  1. 单细胞或单核 RNA 测序 (sc/snRNA-seq) 是一种强大的工具,用于识别细胞类型和细胞状态,检测疾病和功能障碍中的基因表达和表观遗传变化,推断发育轨迹和细胞状态转换,预测基因调控机制,并比较跨物种特定组织的进化修饰。
  2. 这些实验的高通量特性以及用于分析其产生的数据的计算工具的不断增加,也增加了虚假发现的风险,或不表现为功能表型的发现,这使这些数据的解释变得混乱。
  3. 为了确认单细胞基因组学实验的初步发现,需要使用正交和功能方法进行验证实验(图1和表1)。

Fig. 1: Considerations for orthogonal and functional validation of sc/snRNA-seq data.

  • 无论初始采集自何种组织,sc/snRNA-seq 数据都需要多个验证步骤以确保其生物学有效性。
  • 除了确保感兴趣细胞类型的适当测量外,还应应用其他步骤以实现最佳实践,包括几个阶段:
  • 阶段 1,实验设计(例如,模型物种的选择)和样本准备(例如,酶解与机械消化——这对免疫细胞的收集很重要,或新鲜样本与冷冻样本);
  • 阶段 2,单细胞或单核测序,质量控制和初步分析;
  • 阶段 3,与其他数据集的整合(包括疾病模型、物种或实验室间的整合);
  • 阶段 4,替代测序方法(例如,访问染色质可及性,或使用长读长测序检测异构体丰度),可视化(使用 IHC、FISH 或空间转录组学),功能验证确保细胞的亚型或亚状态是终末状态而非过渡状态,最后是跨物种验证(当使用动物疾病模型时确保其与人类的相关性尤为重要)。
  • 在初步的 sc/snRNA-seq 实验中确定的一些差异表达基因可能需要上述方法中的一种或多种,甚至其他方法进行验证。

Table 1 Overview of common validation methods 表1:常见验证方法概述

Para_02
  1. 在此我们讨论这些验证方法的一些通用用例和示例(见框1和表1)。
  2. 在框2中,我们讨论了为什么进化比较对于基础和转化神经科学家都很重要。
  3. 我们还讨论了用于进化比较的sc/snRNA测序的挑战和局限性(例如,解开同源性与趋同进化的纠缠),将体外模型与体内生物学联系起来,并考虑技术和生物学的可变性。
  4. 我们展示了sc/snRNA测序发现的具体示例,这些发现需要验证实验,涵盖了各种常见场景和方法。
  5. 尽管所选示例并不详尽,但它们展示了不同的验证步骤如何补充和确认sc/snRNA测序的结果。
Para_03
  1. 某种层面的确认是必要的,额外的验证是主观的,并且依赖于每个生物系统的细微差别。
  2. 最简单的验证实验是那些验证少数基因表达的实验。
  3. 这种方法利用原位杂交(ISH)结合目标差异表达基因(DEGs)及细胞类型特异性基因的探针,可以提供对sc/snRNA-seq研究结果的确认。
  4. 蛋白质水平的验证可以通过免疫染色研究。
  5. 然而,这些验证方法不适用于验证大量的差异表达基因,或者当几个基因对于识别某个细胞状态或多重状态是必要时(见下框1,第三个使用例)。
  6. 为了验证此类主张,可能需要多重原位方法或全基因组范围的空间测序方法(见下文)。
  7. 随着空间转录组学和蛋白质组学方法的不断增多,需要谨慎考虑每种方法的利弊。
Para_04
  1. 最后,许多 sc/snRNA-seq 的研究发现不仅限于基因表达的描述,还推断了潜在的功能和基因调控机制,例如细胞间通讯分析和基因调控网络推断。
  2. 虽然基因表达或蛋白质丰度的空间可视化对于展示配体和受体的共定位是有用的,但单靠可视化不足以展示生物功能、真正的细胞间通讯或转录因子–增强子–启动子相互作用。
  3. 验证这些机制和功能推断需要干扰实验(图 2)和进一步的功能研究。

Fig. 2: Overview of perturbation-based validation approaches.

  • a, sc/snRNA-seq 数据集可以生成不同类型的功能或机制假设。箭头标记因果关系的假设,这些假设是从单细胞数据集中生成的,可以通过基于 CRISPR 的验证工具进行测试。
  • b, 基于 CRISPR 的工具干扰基因组序列和基因表达的示例。
  • c, 高通量 CRISPR 基于扰动实验的实验策略,用于验证和测试来自 sc/snRNA-seq 数据集的功能或机制假设。TSS 代表转录起始状态。

[div_box] [div_box]

Primary orthogonal validation approaches 

Validation of clusters versus validation of individual DEGs

聚类验证与单个差异表达基因的验证

Para_01
  1. 通过方便收集细胞的转录组学特征的同时比较,sc/snRNA-seq 可以基于差异表达基因定义簇。
  2. 然而,用于处理和分析这些数据集的算法旨在检测转录差异,并且根据指定的分辨率,即使差异微小到构成噪声,它们仍会继续对细胞进行子集划分。
  3. 在进行生物学验证之前,在聚类中设定几个分辨率,随后进行迭代的计算后续验证是至关重要的。
  4. 聚类算法所固有的提供系统模块化的特性也加强了后续验证方法的重要性,以确保簇反映生物学。

Integration and clustering across studies

跨研究的整合和聚类

Para_01
  1. 整合是用于跨数据集比较的强大工具,允许对大规模图谱中的细胞进行联合评估。
  2. 虽然这确实消除了跨数据集的独立性,但为了联合应用细胞类型识别方法,这通常是值得的代价。
  3. 这些工具可以是与外部数据集的经典整合方法(以了解所讨论的细胞类型是否与已发表的细胞类型有确切对应关系),也可以是转录组相似性方法(以了解新识别的细胞类型是否与先前描述的细胞类型相似)。
  4. 后者可以通过在 Seurat8 中使用 AddModuleScore()、Celltypist9 或 CellHint10 来完成。
  5. 验证聚类数量的进一步计算方法包括对每个聚类最富集的转录本的可视化(前10或前100),以及通过聚类在所有细胞中投射以创建基因表达特征图。
  6. 这种方法允许可视化每组细胞之间的转录区分:最佳的聚类展示了一条对角线,每个转录本在聚类中的所有细胞中均匀富集,而在其他聚类的所有细胞中则低表达。
  7. 在候选聚类之外高表达的聚类富集基因表明过度聚类和分辨率过高,暗示这些聚类可能代表相同的细胞或细胞状态之间的微小变化。
  8. 当将细胞类型亚聚类为不同的细胞状态时,预期聚类之间的差异会更微妙,反映出细胞状态之间共享和独特的表达程序。
  9. 一种新兴的替代方法是识别驱动细胞状态的基因表达的这些微妙连续差异,即识别在细胞子集中共表达的基因程序(例如,通过主题建模)。
  10. 因此,最好先将分辨率设置得很高以进行过度聚类,然后修改分辨率,降低分辨率直到能清晰地看到稳健的聚类分离。
Para_02
  1. 另一个确保聚类不是算法伪影的计算方法是引入一种已知的不同细胞类型,以观察聚类是否会合并。
  2. 例如,许多研究小组从较大的数据集中对细胞进行子聚类,以识别由于细胞类型不同或在较小的数据集中由于低丰度人群的不足而在较大数据集中隐藏的更细微的细胞亚型或状态。
  3. 虽然这种方法是标准和可接受的,但添加不同的细胞类型是一种严格的方法,可以确定这些亚型或次状态是否真正不同。
  4. 与细胞类型不同,区分细胞状态更为复杂,因为细胞状态转换可能只需要表达程序上的细微差异,并涉及状态之间的连续转换。
  5. 此外,细胞状态多样性的正确或最合适的分辨率定义不太明确,不同的分辨率可能正确地捕捉细胞状态中的真实生物差异。
  6. 我们将在下面更深入地讨论这个问题。
Para_03
  1. 最重要的是,所有sc/snRNA-seq数据的聚类都需要事后的验证。
  2. 单细胞或单核数据可以被视为一种生物学预测,这种预测允许有指导地产生假设,以获得生物学洞见。

DEGs as markers of individual cell types and clusters

DEGs 作为个体细胞类型和簇的标志

Para_01
  1. DEGs 可以被推测为细胞类型的基本标志或细胞状态之间表达程序变化的指示。
  2. 然而,转录组学特征提供了细胞行为的快照。
  3. 鉴于 DEG 的识别本质上是比较性的,因此在驱动细胞特性方面起关键作用的其他基因可能会逃过这样的分析。
  4. 例如,两个基因之间的基本相互作用可能是支持细胞功能所必需的。
  5. 在缺乏其中一个基因的情况下,一群细胞实际上正在失去两者的综合效应;虽然在这两个簇之间的 DEG 分析中可能会出现第一个基因,但第二个基因可能未被注意到。
Para_02
  1. 这就显示了正交验证的必要性,因为差异表达基因(DEGs)复杂的相互作用在转录组数据中仍然隐藏不露。
  2. 正交验证是一个关键的中间步骤,用于确定从簇中提取出的DEG是否在与生物学问题相关的细胞环境中重现。
  3. 根据用于DEG发现的参数以及测序前样本的状态,定义一个簇的基因可能无法转化回组织环境。
  4. 所应用的统计方法依赖于对噪声分布的假设,推断出的DEG可能随方法的选择而变化。
  5. 例如,经常使用的检验如广义线性模型假设负二项分布或泊松分布,而Wilcoxon秩和检验假设非参数分布,应当进行多重假设校正。
  6. DEGs的表达水平也可能在细胞的正常状态下波动;因此,不能以细胞类型或身份取代谱系追踪和发育分析。
  7. 因此,重要的是在进行机制探究之前,明确任何感兴趣的基因在相关的细胞状态之间确实和持续地以不同水平表达。
  8. 这种正交证据包括验证推断自转录组数据的细胞表观基因组、形态学、空间和生物物理特性或功能的实验。

Prior cell classifications as a scaffold for analysis

先前的细胞分类作为分析的框架

Para_01
  1. 可以理解的是,之前的细胞类型分类方案由于sc/snRNA-seq的前所未有的规模和通量,偏向于分子检测。
  2. 然而,当这些数据被孤立地解释时,可能会出现许多问题:(1) 很难区分定义稳定细胞类型的分子特征与瞬时细胞状态;
  3. (2) 生成的细胞类型图集可能会根据样本大小和用于聚类的分析参数而有所不同,导致缺乏可重复性且没有明确的真相;
  4. (3) 分子定义细胞类型的功能相关性尚不清楚。
Para_02
  1. 最近的多模态单细胞分析对离散细胞类型的概念提出质疑,表明在广泛的转录组学类别中,细胞形态、生物物理特性和分子特征的连续和相关变化显著促进了细胞多样性。
  2. 验证转录组集群,即确认它们具有生物学相关性,需要正交和功能验证。
  3. 需要对计算机模拟集群进行这种验证的一个主要原因是细胞图谱研究可能对稀有细胞或细胞状态的研究能力不足,这常常导致聚类假象。
  4. 一些方法已经开发出来以克服这一问题,例如 FIND-seq(通过核酸检测和测序对细胞进行集中研究)——该方法是为了研究基于少量 mRNA 标记表达而分离的罕见星形胶质细胞群体而开发的。
  5. 附加的验证步骤,包括替代测序努力、多数据集整合和荟萃分析以及可视化(例如,原位、MERSCOPE)对于验证计算分析背后的生物学真实性至关重要。
Para_03
  1. 转录集群的验证基于这样的假设:真正的细胞类型应该形成离散的实体。
  2. 换句话说,如果一组细胞通过多种检测方法表现为一个独特的群体,这将支持其被指定为一种有效的细胞类型或状态。
  3. 验证新识别的细胞类型或状态所需的检测数量和类型仍不明确,但至少建议使用至少一种独立的检测方法来验证sc/snRNA-seq的发现(例如,使用原位或空间转录组学进行可视化,使用单核的转座酶可接入染色质(ATAC)显示差异表达基因的染色质可及性,或功能检测)。
  4. 然而,还建议超越单个转录本的验证,并尽一切努力在蛋白质、细胞生理学、解剖分布、发育谱系、形态学、连接性和/或功能水平验证目标。
  5. 这些额外的表型验证步骤建立了所研究的细胞类型或状态的稳健性,并提供了其在神经系统中作用的机制理解。

Methods of validation by visualization

通过可视化的方法进行验证

Spatial transcriptomics

空间转录组学

Para_01
  1. 空间转录组学结合原位杂交(ISH),包括单分子原位杂交或RNAscope ISH、免疫荧光(IF)和免疫组化(IHC),代表了一种强大的技术组合,用于全面表征基因表达和蛋白质定位。
  2. 虽然单细胞或核RNA测序(sc/snRNA-seq)提供了单细胞或单核水平的转录组信息,但原位杂交可以在完整组织中可视化特定RNA分子,确认其空间分布。
  3. 免疫荧光和免疫组化可以检测和定位蛋白质,提供关于细胞类型、蛋白质-蛋白质相互作用和假定细胞功能的额外信息。
  4. 整合这些互补技术可以验证单细胞或核RNA测序的发现,并允许研究人员在组织结构背景下研究基因和蛋白质的共表达,从而更全面地理解复杂生物系统中的细胞行为和分子相互作用。
Para_02
  1. 通过利用空间转录组学、原位杂交(ISH)、免疫荧光(IF)和免疫组织化学(IHC)的优势,研究人员可以揭示基因表达和蛋白质定位的复杂空间动态,推动对组织发育和疾病发病机制的理解。
  2. 这些方法需要已有的通过sc/snRNA-seq实验获得的差异表达基因(DEGs)知识。
  3. 虽然ISH、IF和IHC的通量较低,一次只允许验证少数基因,但空间转录组学可以达到数千基因的通量。
  4. 基于测序的方法如Visium和Slide-seq23能够同时捕捉来自单个样本中多个空间定义区域的基因表达信息。
  5. 这些全基因组技术能够在组织切片中定位一组DEGs(通常称为‘基因模块’)。
  6. 通过将50–100 µm分辨率的空间解析基因表达谱(通过Visium HD更新到8 µm分辨率,Slide-tags24更新到10 µm分辨率)与高通量测序结合,这些方法提供了全面的验证并补充测序数据。
  7. 基于原位的方法,例如多重误差强韧荧光原位杂交(MERFISH)25、STARmap26和原位测序27,通过单分子荧光原位杂交(FISH)辅以序列图像和信号放大技术,实现了对数百个基因小组的RNA转录物在亚细胞分辨率下的高通量直接识别。
  8. 有关这些方法的更深入讨论,请参见参考文献2。

Genes versus proteins

基因与蛋白质

Para_01
  1. 使用基于成像的 RNA 可视化来验证 sc/snRNA-seq 的结果,和/或在空间上解析 sc/snRNA-seq 数据,提供了重要的背景和互补的验证。
  2. 然而,当推断基因表达变化的潜在功能后果时,关键还在于考虑蛋白质水平的验证。
  3. 尽管转录本和蛋白质水平一般是相关的,但有几个因素可以引起转录本与蛋白质比例的不一致,包括调控关系和调节蛋白质定位、激活和周转的机制。
  4. 基因表达与蛋白质水平之间的非线性关系在将 sc/snRNA-seq 数据与 TRAP-seq 或蛋白质组学数据进行比较时尤为明显,在这些数据中,核糖体和蛋白质可能存在于远离细胞体的过程中——在中枢神经系统细胞中尤为常见。
Para_02
  1. 蛋白质水平的验证在推断细胞间通信方面提供了关键信息。
  2. 在单细胞或细胞核水平进行分析的能力推动了通过scRNA-seq和/或空间转录组学数据来评估假定的细胞间通过配体-受体相互作用进行通信的方法的快速扩展。
  3. 然而,这些工具的结果应被视为假设生成而非假设验证。
  4. 超出评估配体和受体是否真正相互作用之外,缺乏证据表明配体和受体在蛋白质水平及其适当的空间背景下存在,这代表了需要填补的一个重要空缺。
  5. 表达和/或空间共定位可以通过相对简单的技术实现,如免疫组织化学(IHC)或流式细胞术/飞行时间细胞术(cyTOF),物理相互作用可以通过共免疫沉淀或较新的技术如多级原生质谱(nativeomics)来检查。

Methods of validation by interrogation

通过询问进行验证的方法

Para_01
  1. 单细胞或单核转录组学方法揭示了不同细胞类型和状态之间的差异表达基因特征。
  2. 虽然这些数据很有力,但它们是描述性的,并不能确立因果关系或提供机制洞见。
  3. 然而,差异表达基因可以用于生成额外的假设,通过基于扰动的方法测试,以研究因果关系并将基因表达与细胞功能联系起来(图2)。
  4. 我们将在下一节中介绍具体的功能验证方法。
  5. 我们将首先描述用于验证基因表达数据的其他基因编辑方法。
  6. 然而,即便是扰动实验也必须在功能水平上进行验证。
  7. 例如,如果一个扰动实验移除了(假设的)吞噬途径基因,那么真正最终的验证就是测试吞噬作用本身的功能。
Para_02
  1. 在培养的细胞和模式生物中存在几种扰动方法。
  2. RNA 干扰技术通过合成的小干扰 RNA 或转基因表达的小发夹 RNA 实现 mRNA 的降解,尽管其存在非特异性作用的困扰。
  3. CRISPR 技术使得基因敲除成为可能,从而实现完全的功能缺失,并提高了我们以规模化和精确的方式研究基因功能的能力。
  4. CRISPR 干扰(CRISPRi)和 CRISPR 激活(CRISPRa)方法使用催化失活的 Cas9 蛋白将转录调控因子招募到感兴趣的基因组位点,从而调节表达水平,并为直接模拟 sc/snRNA-seq 中鉴定出的特定差异表达基因的表达水平变化提供了一种策略。
  5. CRISPRi/a 还可以靶向远距离的调控元件,如增强子,以确定它们在基因表达调控中的功能。
Para_03
  1. 基于CRISPR的基因扰动可以在单个实验中和使用混合单导向RNA库靶向多个感兴趣基因的大规模并行筛选中靶向感兴趣的基因。
  2. 混合筛选可以针对广泛的表型进行,包括细胞存活或特定的细胞功能,状态可以通过荧光标记或报告基因或额外的单细胞/单核糖体RNA测序读出(例如,Perturb-seq或CROP-seq)。
  3. 它们也可以用于筛选长非编码RNA和顺式调控区域(例如,在诱导多能干细胞(iPS)衍生的神经元和小神经胶质中)。
  4. 如文献2综述所述,基因组编辑技术的发展,以CRISPRi/a、CRISPR缺失和CRISPR插入缺失筛选为例,促进了DNA序列的大规模扰动和评估。
  5. 基于CRISPR的筛选已成功用于研究与神经科学相关的细胞类型,包括人iPS细胞衍生的神经元、小神经胶质细胞、星形胶质细胞、神经元-胶质共培养系统、大脑类器官以及在小鼠脑内的体内研究。
  6. 为了尽量减少与某些体外细胞分离系统相关的伪影(见下文),在选择细胞培养系统时应谨慎考虑,或者应考虑体内CRISPR检测。
  7. 然而,体内筛选难以进行,因为目前不是所有细胞类型都容易操纵(例如,小神经胶质细胞),或者容易靶向(例如,反应性细胞的子状态)。
  8. 使用iPS细胞衍生模型和原代分离细胞的体外筛选是一个替代方案,并且可以预测体内发现的细胞状态,特别是小神经胶质细胞和星形胶质细胞。
  9. 这些体外CRISPR验证步骤可以预测基因表达变化的功能后果。

Functional validation 

Para_01
  1. 需要进行功能验证研究,因为不同细胞群的生理相关性无法从其转录状态推断出来,但它们可以用作细胞类型指南。
  2. 对于通过sc/snRNA-seq描述的细胞类型,重要的是进行功能验证以 (1) 确保转录学上定义的群体代表真正的细胞类型和/或子类型或子状态,以及 (2) 理解它们的特性以将其置于更大回路或脑区域的背景中。
  3. 这在定义细胞的"状态"时尤为重要。
  4. 什么是"功能验证"仍然存在争议。
  5. 广义上讲,它将分子特征(通过测序数据测量)与表型联系起来,以确认在sc/snRNA-seq中识别的基因或基因模块在生物学上是有意义的。
  6. 这种推断并非易事,转录学上不同的群体不应总是被假设为与功能差异相关。
  7. 实际上,由于聚类工具的启发式性质,在sc/snRNA-seq数据中细胞群的某种分离几乎是不可避免的,因此在生物学相关性方面必须谨慎解释。
  8. 值得注意的是,细胞状态的短暂变化,例如细胞周期中的阶段,可能对转录组的影响比细胞类型或子状态更大。
  9. 在这种情况下,功能可塑性的程度也不应被低估。
  10. 尽管这些问题存在,sc/snRNA-seq在成人分化组织中揭示了相对一致的标志,与细胞形态的变化可预测地相关。

Using cell culture systems for validation

使用细胞培养系统进行验证

Para_01
  1. 许多协议存在于中枢神经系统(CNS)细胞的纯化和培养中。
  2. 最初涉及从胚胎或新生的啮齿动物细胞中富集(而不是纯化)细胞,并在培养基中加入血清以提供营养支持,这些培养物提供了对CNS细胞基本功能的理解。
  3. 然而,随着这些技术的最新进展以及对研究单个细胞类型疾病状态兴趣的增加,要求对这些方法进行质疑——即血清并不是CNS的正常成分。
  4. 虽然已经出现了不含血清的CNS细胞培养方法,但这些方法并非总是被采用——这引发了对体外功能验证实验的担忧,尤其是对CNS胶质细胞和免疫细胞的担忧。
  5. 这并不否定细胞培养作为验证工具的效力;相反,它强调了选择适当的体外模型来用于复制从单细胞/单核RNA测序研究中识别出的感兴趣细胞群体的重要性。
  6. 此类方法已在其他地方广泛讨论过星形胶质细胞和小胶质细胞,但类似的观点适用于所有CNS细胞,这里将不再赘述。
Para_02
  1. 体外功能验证的优势包括能够研究单一类型或状态的细胞的同质和纯净群体,以及能够使用人类细胞验证人类sc/snRNA-seq数据(图2)。
  2. 这包括使用(诱导或胚胎)多能干细胞模型、二维或三维培养系统(包括类器官,见下文)或使用原代组织切片。
  3. 以星形胶质细胞的反应状态为例,可比较未经处理的多能干细胞衍生星形胶质细胞与经肿瘤坏死因子、白细胞介素-1α和C1q处理后的诱导反应状态。
  4. 感兴趣的集群可以通过活细胞分选(例如,荧光激活细胞分选或磁活化细胞分选)进行分离,并在重新验证转录状态后,可以探讨共识稳态功能属性(例如,谷氨酸再摄取,突触发生能力,神经营养能力)以及完全新功能的获得(例如,神经毒性)。
Para_03
  1. 部署这些方法意味着生成和/或分离具有特定转录组特征的细胞培养物,这些特征在此类功能表征测定中是可行的,这可能对不同的细胞类型和/或状态提出挑战。
  2. 通过统计优先级(例如,通过显著性和效应大小)或对特定功能(或一组功能)的必要性和充分性而涉及的单个基因或基因集可以利用这些方法在基因上进行探究。
  3. 然而,如果在体外未检测到功能差异,则负预测值会有所限制,因为可能存在一些在体外条件下难以再现的特定功能。
Para_04
  1. 额外的假设和验证可以通过研究细胞间相互作用的方法的结果来提出。
  2. 最近应用于星形胶质细胞和其他胶质细胞的新兴技术包括RABID-seq(狂犬病条码相互作用检测后测序),SPEAC-seq(包裹相关细胞的系统性干扰后测序),它使基于微滴的推定相互作用细胞的培养成为可能以及用于细胞间相互作用的LIPSTIC(通过SorTagging标记细胞间接触的免疫合作伙伴),最初用于揭示T细胞和树突状细胞之间的相互作用。

Functional validation at the organismal level

在生物体水平的功能验证

Para_01
  1. 在这里,我们旨在提供测试分子鉴定细胞簇的功能相关性的一般工作流程。
  2. 为了在动物模型中进行功能验证研究,可能需要生成遗传报告动物,这些动物根据标记物/差异表达基因的表达来标记特定细胞类型。
  3. 遗传报告小鼠对于映射神经系统中细胞类型的体内特性,包括它们的活动模式和对行为的贡献也很有用。
  4. 这种策略对于分类中枢神经系统神经元的特性是有价值的(需要注意的是一些特性可能是物种特异性的(例如人类),因此可能无法在其他物种(例如小鼠模型)中得到验证)。
  5. 在许多情况下,细胞类型不能仅通过单个标记基因的表达来选择性标记,因为其他细胞类型也可能表达该基因。
  6. 在这种情况下,使用交互策略是有用的,通过这种策略,表达两个基因(或表达一个基因但不表达另一个基因)的细胞可以被选择性地靶向。
  7. 该策略已被用于研究不同类型的神经调节神经元,包括多巴胺和血清素神经元,这些已经通过单细胞/核糖核酸测序显示出高度异质性。
Para_02
  1. 在几个大型细胞分类学论文中已经对神经元类型进行了功能验证。
  2. 向前推进的一个更普遍的策略可能是从由sc/snRNA-seq定义的细胞类型开始,然后进行空间转录组学以展示解剖定位,然后对细胞进行记录以检查内在膜(或突触)特性并进行形态重建(例如,测量树突、棘或轴突的特性),或者进行Patch-seq以将电生理记录与来自同一细胞的基因表达数据配对。
  3. 进一步的步骤包括生成一个报道动物,标记感兴趣的人群,然后测试该特定细胞群体的在体回路连接性和行为相关性。
  4. 这一策略也可以应用于脑类器官中细胞类型的功能验证。
Para_03
  1. 最近,在人类 iPS 细胞来源的类器官中包含有神经元和星形胶质细胞的研究,在多个发育阶段提供了星形胶质细胞的功能验证,进行了多种探针已知功能的测试。
  2. 在大脑类器官中,可以通过功能测量细胞形态、蛋白水平、祖细胞分化潜力和内在生理特性。
  3. 最近,结合空间转录组学的老鼠大脑神经活动的体内成像被用于功能验证分子定义的细胞类型。
Para_04
  1. 同样地,在不同的反应性和疾病状态下,星形胶质细胞的功能验证已成功地为以转录组定义的人群添加了生物学价值。
  2. 从以转录组学数据为体内反应性星形胶质细胞亚状态的路线图开始,研究人员可以分离出初级啮齿动物或 iPS 细胞衍生的人类星形胶质细胞,重现原始基因表达特征,然后继续进行功能验证,以确定在不同的亚状态中是否存在任何功能丧失或功能获得的变化。
  3. 已有多种管道用于生产高通量且可控的细胞培养平台,以验证星形胶质细胞的疾病生物学。

Cross-species comparisons 

Para_01
  1. sc/snRNA-seq 提供了一种分子通用语言的细胞类型定义方法,可用于任何具有高质量基因组的物种。
  2. 虽然细胞类型的定义通常涉及其他特征(例如,连接性、功能、形态),但这些特征在跨物种的获取上可能困难或不可能。
  3. 此外,细胞自主基因表达程序是构建细胞许多(但不是全部)结构和功能特征的基础。
  4. 这种跨物种共享基因表达程序和功能特性的基础使得一种被称为同源性映射的推理过程成为可能。
  5. 连接性和生理等特性更易于在遗传可操作和实验可及的动物模型(例如小鼠或果蝇)中进行研究,然后通过锚定到其他物种(包括人类)中的同源细胞类型来转移这些特性。
Para_02
  1. 理想情况下,在不同物种中识别同源细胞类型需要识别出每个物种中一组可以访问相似调控程序以进行分化的细胞。
  2. 单细胞或单核测序结合系谱追踪或命运图绘构建是重建细胞类型发育历史以及因而在不同物种间的关系的强大工具。
  3. 我们对于任何一个物种内基于转录定义的细胞类型系谱的理解仍然较为零碎。
  4. 很少有比较研究将不同物种的祖细胞类别相匹配;尽管,即便这种信息可用,共享的发育历史也不是推断细胞类型同源性所必需或充分的条件。
  5. 单靠成年数据匹配同源类型的挑战在于区分共享的进化历史与表型趋同,但通过足够多的物种集合可以缓解这一问题。
  6. 转录因子在显著影响细胞类型身份方面具有重要作用,这表明在跨物种的细胞类型映射中优先考虑转录因子可能改善同源性分配。
  7. 单一个或一小组因素可能就足以改变命运并最终决定细胞身份。
  8. 然而,转录因子在发育中受到调控,可能不会在具体化的早期阶段和成年期得到保留。
Para_03
  1. 在不同物种之间,细胞类型的丰度、基因表达特征和空间分布都会发生变化。
  2. 每一种差异都为跨物种比较带来了各自的挑战。
  3. 通常,随着进化距离的增加,细胞类型的相似性降低,同源性映射变得不那么准确。
  4. 值得注意的是,单细胞/单核RNA测序可以用于揭示跨越5亿年进化的脑细胞类型的保守性和新颖性,这表明定义细胞类型的核心转录程序通常是深度保守的。
  5. 因为方法可能依赖于1:1直系同源基因的假设,将物种之间的单细胞或细胞核转录谱整合起来可能是困难的,而基因重复、丢失和序列级差异随着进化距离增加而增加。
  6. 细胞类型的进化修改可能源于中性漂变、与大脑重组相关的物理约束或新的功能需求。
  7. 整体的转录分化模式已被关联到灵长类动物中的中性漂变,并伴随着在更长时间尺度上对细胞类型或组织水平的稳定选择。
Para_04
  1. 理解驱动进化特征(如跨物种的细胞类型比例变化)的神经解剖学和/或物理限制仍然具有挑战性。
  2. 跨物种的细胞类型丰度增加可以直观地与物种特异性适应联系起来,例如在灵长类动物中与高视觉敏锐度有关的新皮层驱动适应可能相关的视网膜神经节细胞亚型的比例增加。
  3. 然而,有时驱动每种细胞类型差异性修饰的机制难以解析。
  4. 例如,较大哺乳动物大脑中向下皮层投射的皮层神经元比例减少可能与功能需求有关,以维持上、下运动神经元之间的比例关系尽管皮层不成比例扩展,或与同源类型在发育过程中的迁移变化有关,无论哪种机制都会导致不同的解剖分布。
  5. 另一个例子是最近观察到的人类与非人灵长类大脑中与成熟少突胶质细胞相比,少突胶质细胞祖细胞比例的相对增加。
  6. 这种差异可能支持人类中增强的神经元或髓鞘可塑性,或者尚未与少突胶质细胞功能相关联的其他表型。
  7. 通过跨物种和物种内个体的单细胞/单核RNA测序(sc/snRNA-seq)的增加采样有助于区分漂移和选择的过程,同时需要进一步分析比例关系和功能变化以解决物理限制和新的细胞特化的贡献。
  8. 在这种可能性之间进行仲裁有助于理解进化选择的目标。
  9. 最后,诸如过度拟合单一物种参考数据集的问题,以及物种间基因组质量差异等问题,为跨物种比较带来了技术复杂性。

When and how does validation fail? 

Para_01
  1. 由于起始测序实验设计不佳,验证可能会失败。
  2. 这可能是由于在大规模测序工作中感兴趣的细胞类型受到污染,或者更常见的是在sc/snRNA-seq研究增加的情况下未能为感兴趣的细胞类型正确设置研究功率(参见参考文献2获取研究设计注意事项的综述)。
  3. 当生物学重复测序不足时,类似的伪影也会出现,这通常是由于sc/snRNA-seq实验的高成本所致。
  4. 尽管存在挑战,但新兴技术如RNA编辑和基于细胞的分析为改善验证带来了希望。
  5. 仔细考虑和探索验证选项对于确保sc/snRNA-seq研究结果的可靠性和稳健性是必要的。
  6. 在其他地方已经从计算的角度简要概述了常见的验证难题;这里我们讨论其他验证方面的考虑因素。

Conceptual limitations of transcriptomic-based homology inference

基于转录组学的同源推断的概念局限性

Para_01
  1. 同源性描述了系统发育关系,并不是相似性的同义词。
  2. 细胞类型可能具有相似的转录组,因为它们来自共同的祖先,或者因为它们在相似选择压力下进化后通过趋同获得了这些特性(图3)。
  3. 区分这两种可能性的理想方法是采集许多物种的样本,并使用最简约原则重建祖先状态(趋同特征往往缺乏系统发育连续性)。
  4. 由于对于详细的单细胞或者单核RNA测序表征来说,这并不总是可行的,这里我们强调一些可能有助于跨物种比较转录组数据的观察。

Fig. 3: Illustration of cell-type homology, convergence and innovation.

  • a–c, 细胞类型进化示意图。圆圈表示转录因子。
  • d–f, 文献中使用单细胞基因组学中每一种细胞类型进化的例子。
  • CGE,尾侧神经节突起;DVR,背部脑室嵴;MGE,中部神经节突起;MSN,中型有刺神经元;NGC,神经胶质细胞;OB,嗅球;TF,转录因子。
  • d 面板经过 ref. 115 的许可改编,AAAS;e 面板经过 ref. 102 的许可改编,AAAS;f 面板从 ref. 101 转载,Springer Nature Limited。
Para_02
  1. 通过独立标准(形态学、输入输出连接)建立同源关系的神经元细胞类型的数据提供了两个关键见解。
  2. 首先,尽管同源神经元的转录组分歧通常是系统发育距离的函数,转录组分歧的速率是细胞类型特异性的:例如,在灵长类大脑皮层中,非神经元细胞比神经元分歧得更快。
  3. 其次,基因家族之间的转录组分歧不是均匀的。
  4. 已知的用于指定细胞身份的转录因子在同源神经元类型中保留了表达,而终端标志物或效应基因的表达可能更快地发生变化。
  5. 这表明同源神经元可能会获得物种特异的功能,例如新的电生理特性,而不改变其核心遗传身份。
Para_03
  1. 这些观察结果与细胞类型的进化定义一致,其中同源细胞共享能够建立和维持其遗传特性的转录因子的表达。
  2. 比较转录因子的表达可以帮助辨别远亲脊椎动物物种的细胞类型比较中的同源性和趋同进化。
  3. 例如,虽然两栖动物、爬行动物、鸟类和哺乳动物中不同类别的大脑皮层GABA能中间神经元表达同样定义类别身份的转录因子,但是某些效应基因的表达,例如标记哺乳动物GABA能中间神经元类别的钙结合蛋白帕伐尔布明,并没有在跨物种中保守。

Are all genes equally informative?

所有基因的信息量是否相同?

Para_01
  1. 是否以及如何为同源推断中的基因赋予不同的权重依然是一个概念上和算法上都未解决的问题。
  2. 虽然转录因子似乎在同源推断中具有更高的权重,但转录因子的组合编码本身也可能会漂移(例如,通过旁系同源的转换)。
  3. 这在比较远缘物种时尤其相关。
  4. 应该注意的是,许多比较研究是在质量较低的组装体上进行的,这些组装体可能尚未完成足够的注释以适应单细胞/单核RNA测序的3'端偏见的数据。
  5. 标准方法使用一对一的直系同源体,假设基因具有相似的功能,但这种假设不能适用于旁系同源,因为基因复制后可能会继承子功能化或新功能化。
  6. 然而,当比较的物种之间存在较大的系统发生距离时,限制分析于一对一的直系同源体会过滤掉大量的转录组。
  7. 最近已提出解决这一问题的计算解决方案。
Para_02
  1. 最后,将跨物种比较限制在转录因子存在简化细胞多样性表现的风险。
  2. 当该领域定义了给定细胞类别中的亚型的微妙区别时,在引发不同的转录程序中,可能会识别出转录因子水平梯度和/或翻译后修饰,这使得跨物种比较更复杂。
  3. 转录因子表达的潜在发育调控使得从时间角度使用它们来定义身份具有挑战性,即使在一个物种内也是如此。
  4. 例如,转录因子的比较可能不具备识别最近分化的细胞类型(姐妹细胞类型)的能力,而这些细胞类型由于其最近的多样化而共享了其转录组的大部分。
  5. 应注意,这种翻译后修饰的考虑并不是转录因子所独有的,应该适用于所有蛋白质。

Are cellular transcriptomes enough to infer neuronal homologies?

细胞转录组是否足够推断神经元同源性?

Para_01
  1. 正如上文所述,随着系统发育距离的增加,同源推断变得更加困难,尤其是在分支之间没有现存物种的情况下,例如,将哺乳动物与爬行动物进行比较。
  2. 自然选择作用于大脑活动的输出,即大脑在有机体环境中支持适应性行为的能力。
  3. 选择的基质是群体中等位基因变体的频率,然而如果基因转录的变化并不导致个体细胞水平的功能变化,则不会受到选择压力。
  4. 这种基因型与大脑选择性表现型之间的映射不是简单的:基因并不直接控制功能(有少数例外);相反,它们通过指示细胞类型、神经元连接、活动、空间分配和其他多种复杂的生物变量影响行为。
  5. 单凭转录组可能不足以在我们不知道选择性状或者基因与这些性状的关系时推断出同源性。
  6. 其他可以帮助同源推断的比较是定义给定细胞的发育起源和神经元连接,尽管这些标准也有其自身的局限性。
  7. 发育起源的一致性、转录组相似性和输入-输出连通性是一种理想的稳固的同源推断方法。

Consideration for modeling function using in vitro systems

使用体外系统建模功能的考虑因素

Para_01
  1. 人类和其他物种的神经组织不可接近性可能限制可执行的功能验证类型,使体外模型成为验证从非实验物种生成的sc/snRNA-seq数据的必要工具。
  2. 体外模型的实验易处理性使其成为通过扰动实验对转录组状态和变化进行功能特征化的有吸引力的模型(图2)。
  3. 类器官是实验上易处理的系统,可以模拟神经组织的细胞类型异质性和空间组织。
  4. 一个令人瞩目的功能研究例子是生成具有或不具有尼安德特人发现的单个氨基酸变化的人类神经类器官,从而能够研究在一个灭绝物种中发现的遗传变异的神经生物学后果。
  5. 神经类器官的单细胞或单核剖析可以提供细胞类型分辨率的发育轨迹,能够扰动动态基因调控网络,模拟神经疾病机制,并支持神经发育的跨物种比较。
  6. 非尸后人类神经组织的不可接近性使类器官和/或单一培养系统(通常)成为唯一可用的功能研究选项,这要求我们对这些模型的局限性有敏锐的理解。
Para_02
  1. sc/snRNA-seq 比较展示了神经类器官在多个基因组模式下模拟广泛体内神经细胞类型的能力。
  2. 然而,这些单细胞数据比较通常使用单一体内数据集作为参考,这忽略了类器官可能无法再现的参考数据中的潜在变异性。
  3. 尤其是在数据稀疏和噪声较大的 sc/snRNA-seq 数据中,任何单一数据集都存在误差。
  4. 一个模拟单一体内数据集信号的神经类器官模型可能是一个糟糕的通用模型,如果参考信号质量低且无法复制的话。
  5. 因此,为了避免过拟合,结合体内数据集之间的体内信号交叉验证是有用的。
  6. 通过量化不同细胞类型的 DEG 统计数据,并汇总来自单个体内数据集的基因的 P 值和倍数变化,建立了解释类器官差异表达统计的参考信号基准。
Para_03
  1. 对于跨物种比较,sc/snRNA-seq对神经类器官的分析可以解析跨物种的关键发育差异,例如人类和灵长类类器官中神经祖细胞变异的分子机制。
  2. 然而,观察结果仅对所采样的变异类别具有稳健性,评估应应用于不同的遗传背景(细胞系)或分化方案,以识别那些不是特定于某个单个细胞系或方案的信号。
  3. 例如,不同的类器官协议旨在导出类似的神经谱系(皮质类器官)时已报告,分化模式中的偏差和细胞系特异性效应可能会模糊类器官方模型中的疾病表型。
  4. 增加遗传和/或技术变异的采样增加了可重复信号的可能性,并可能避免过拟合。

Technical limitations of transcriptomic-based homology inference

基于转录组学的同源推断的技术限制

Para_01
  1. 尽管我们尝试提供概念性的标准,但由于没有正式或统一接受的标准,定义细胞类型同源性面临计算上的挑战。
  2. 多种方法可以预测同源细胞类型,但跨物种整合可能较为困难,因为同源细胞类型的识别通常依赖于共享最近邻和非线性数据转换等启发式方法,而不是正式的基因表达分歧和细胞类型进化模型。
  3. 因此,在一个给定数据集中包括或排除某些细胞类型可能会改变哪些细胞类型被视为同源。
  4. 例如,被认为是灵长类特有的细胞类型,起初被认为最类似于其它纹状体抑制性神经元,但在进一步的分析中被确定为实际上更类似于间脑神经元。
  5. 这一问题是任何类型比较的潜在警告,无论是在物种之间、区域之间还是在发育时间段之间,特别是对于功能性正交验证实验的部署尤为重要。
  6. 组成方面的问题在体外研究的背景下尤其紧迫,其中不同的 iPS 细胞系对模式化因素的响应不同,生成成分可变的培养物。
  7. 还需要考虑到保守的群体可以在发育过程中重新用于不同的大脑结构。
  8. 近期的研究强调了迁移到啮齿动物嗅球的抑制性神经元类别已被重定向到扩展的灵长类白质,而一种哺乳动物保守的抑制中间神经元类型在小鼠海马中数量最多但在灵长类新皮质中更为丰富。
Para_02
  1. 使用 sc/snRNA-seq 方法研究跨物种细胞类型的挑战是多重的。
  2. 即使有可靠的体内数据,在建模同源性时也必须考虑时空背景和生物变异。
  3. 体外研究也面临同样的挑战:细胞类型分布与体内可重复生成的解剖结构脱离,增加了一个问题,即观察到的细胞状态仅是接近体内的状态,同时受到各种技术变异来源的重叠影响。
  4. 尽管面临这些挑战,现有的数据和工具在明智判断的使用下,已经使得新的细胞类型以及脊椎动物大脑发育和功能的共享特征和原则的发现成为可能。

Technical and biological artifacts

技术和生物的人工制品

Para_01
  1. 由于进化研究结果可能很难通过实验验证,因此考虑可能导致错误解释的实验因素是重要的。
  2. 其中一些因素与进化比较有关,但大多数可以适用于其他类型的比较(而且可以通过谨慎的正交验证来缓解)。
  3. 最近的研究表明,技术上的人为产物如双细胞和环境RNA污染可能导致误解。
  4. 当数据集在未适当调整测序人为产物的情况下进行比较时,这个问题会加剧。
  5. 例如,如果一个物种的数据集包含更多的人为产物(例如更高的双细胞率、更大的环境RNA污染),结果可能被误解为一种物种特有的效应。
  6. 同样,获得来自所有物种的在人口统计学和时空上相似的大脑组织对于正确的进化比较(或物种内比较的样本)至关重要。
  7. 如果在解剖过程中区域边界没有得到严格考虑,可能会错误地比较大脑区域,从而导致将区域特异性的细胞和分子特征误分类为物种特有或样本特有的结果。
  8. 尽管空间转录组学可能会减轻对于小脑尺寸物种的问题。
  9. 除了大脑区域外,发育时间点也应配对,以防止将年龄特定的效应误解为物种特有的效应。
  10. 然而,在远亲物种中匹配发育时间点可能是不可能的,还需考虑异时性作为进化变化的一种机制。
  11. 最后,重要的是要考虑到年龄匹配通常依赖于基于生活史特征的估计,而某些细胞类型可能对年龄的影响比其他细胞类型更敏感(例如,胶质细胞在非常老的年龄中比神经元变化更多)。
  12. 因此,解释时应考虑样本的年龄范围。

Fig. 4: Illustration of technical and biological artifacts.

  • 单细胞基因组学中使用进化比较的方法可能容易因生物学(例如,脑区选择/解剖或人口统计学如年龄)和/或技术(例如,双胞胎或环境RNA)伪影而导致误解的示意图。
  • 应注意,这些比较和错误也可能在其他变量的比较中出现:不同年龄的样本、不同疾病阶段、不同中枢神经系统区域或不同治疗模式后。
  • 一如既往,分析应在所探讨的基础生物学背景下进行考虑。

Conclusion 

Para_01
  1. 我们强调了通过深入的数据分析、功能特征描述、交叉验证、多组学整合以及后续验证实验来验证sc/snRNA-seq数据的重要性。
  2. 我们还强调了在跨系统分析中处理混杂因素的具体做法的必要性,例如在每个系统中广泛抽样、测量差异、在不合并的情况下评估相似性,并通过效应量报告其稳健性。
  3. 这些做法可以帮助避免过拟合和偏差,提供有意义的跨系统评估,并揭示大脑进化、疾病响应和适应性表型的分子机制。
  4. 通过慎重考虑其固有的挑战和局限性应用sc/snRNA-seq方法,研究人员可以推进我们对不同生物系统中细胞异质性和进化的理解。