专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
BioArt  ·  Science丨神经元- ... ·  昨天  
生物制品圈  ·  冷冻干燥热敏性药物:含有机共溶剂 + 水的配方 ·  3 天前  
BioArt  ·  Nature | mTOR ... ·  3 天前  
51好读  ›  专栏  ›  生信菜鸟团

技术探讨 | 数据集不平衡对单细胞数据整合的影响

生信菜鸟团  · 公众号  · 生物  · 2024-12-26 07:55

正文

Basic Information

  • 英文标题: Characterizing the impacts of dataset imbalance on single-cell data integration
  • 中文标题:数据集不平衡对单细胞数据整合的影响
  • 发表日期:01 March 2024
  • 文章类型:Article
  • 所属期刊:Nature Biotechnology
  • 文章作者:Hassaan Maan | Bo Wang
  • 文章链接:https://www.nature.com/articles/s41587-023-02097-9

Abstract

Para_01
  1. 用于整合来自多个样本和条件的单细胞转录组数据的计算方法通常不考虑不同数据集中测量的细胞类型的不平衡。
  2. 在这项研究中,我们检查了存在的细胞类型差异、每种细胞类型的细胞数目以及跨样本的细胞类型比例如何在整合后的下游分析中产生影响。
  3. Iniquitate 流水线评估了一旦扰动数据集之间的不平衡程度后整合结果的稳健性。
  4. 在 2,600 次整合实验中,五种最先进的单细胞 RNA 测序整合技术的基准测试表明,样本不平衡对下游分析和整合结果的生物学解释有显著影响。
  5. 不平衡扰动导致无监督聚类、细胞类型分类、差异表达和标记基因注释、查询到参考的映射以及轨迹推断中的统计显著变异。
  6. 我们通过新引入的属性——聚合细胞类型支持和最小细胞类型中心距离来量化不平衡的影响。
  7. 为了更好地描述和减缓不平衡的影响,我们为整合方法用户引入了平衡聚类度量和不平衡整合指南。

Main

Para_01
  1. 过去十年发展出的单细胞测序技术在各个领域中引领了重大发现。
  2. 去除批次效应的大量RNA测序数据的方法在单细胞环境中表现不佳,因此针对单细胞RNA测序(scRNA-seq)数据特地开发了批次校正/整合技术。
  3. 当前的单细胞整合方法在数据集因现有细胞类型差异、每种细胞类型的细胞数量、以及样本之间的细胞类型比例不平衡时表现欠佳。
  4. 数据集不平衡情况在许多整合背景中出现,包括发育生物学和癌症生物学。
  5. 由于这些背景在单细胞数据分析中很常见,整合方法和分析流程必须能够明确解决数据集不平衡问题,否则整合结果可能导致不准确的生物学结论。
Para_02
  1. 在Tran等人和Luecken等人的全面单细胞整合基准研究中,发现scRNA-seq整合方法在大型和不平衡数据集中,无论是在批次校正还是细胞类型身份保留指标方面表现都很差。
  2. Ming等人进行了模拟研究,研究了scRNA-seq整合环境中不平衡的细胞类型组成,并证明细胞类型比例不平衡会导致数据集之间标准化基因表达值的分布偏斜。
  3. 这导致了scRNA-seq分析中降维步骤的重大变化,随后导致了不准确的整合结果。
  4. 目前,没有任何现有研究量化了数据集不平衡对整合结果和下游生物学结论的影响。
  5. 这一方面非常相关,因为在常用的整合技术中,并不存在能够轻易弥补数据集不平衡的机制。
Para_03
  1. 在此,我们对数据集不平衡对 scRNA-seq 数据整合的影响进行了广泛分析。
  2. 我们首先检查了两个平衡的人类外周血单个核细胞(PBMCs)的 scRNA-seq 批次和两个平衡的小鼠间充质器官发生细胞的批次,作为对照条件。
  3. 为了确定数据集不平衡对整合结果和下游分析的影响,我们进行了调整数据集平衡的整合实验。
  4. 测试的下游分析包括无监督聚类、用于确定标志基因的差异表达、基于最近邻的细胞类型分类、查询到参考的细胞类型注释和轨迹推断。
  5. 为了将测试扩展到更复杂的设置,我们分析了具有普遍不平衡的数据集,包括不平衡的 PBMC 数据集、时间序列小鼠后脑发育数据以及来自不同患者的胰腺导管腺癌(PDAC)样本。
Para_04
  1. 我们的分析显示,数据集的不平衡对整合性能以及后续结果有细胞类型特定的影响,并且这些影响在很大程度上与方法无关。
  2. 我们定义了多样本单细胞数据的两个关键特性,它们协同作用影响下游结果:'聚合细胞类型支持'和'最小细胞类型中心距离'。
  3. 为了应对在基准测试不平衡数据的单细胞整合时的局限性,我们重新制定了当前的整合指标以明确考虑不平衡。
  4. 最后,我们提供了一系列指导方针和建议,以帮助缓解数据集不平衡在单细胞RNA测序整合环境中的影响。

Results

A perturbation pipeline to quantify impacts of imbalance

一个用于量化不平衡影响的扰动流程

Para_01
  1. 为了评估数据集不平衡在单细胞RNA测序整合中的影响,我们开发了一个名为Iniquitate的流程,该流程用于测试降采样扰动对整合和下游分析结果的影响(图1a和方法)。
  2. 除了PDAC数据外,使用的数据集都是由各自研究中的专家注释的,PDAC数据被重新注释以更好地识别恶性细胞(方法)。
  3. 我们测试了五种最先进的单细胞RNA测序整合方法,包括BBKNN、Harmony、Scanorama、scVI和Seurat。
  4. Iniquitate内嵌一个统一的整合流程,用于对不同方法和不同数据集之间的分析进行比较(方法)。

Fig. 1: Overview of the Iniquitate pipeline and analysis results.

  • 为了确定数据集不平衡在单细胞RNA测序(scRNA-seq)整合中的影响,使用当前最先进的scRNA-seq整合技术,对两个控制均衡的数据集和四个已经存在不平衡的复杂数据集进行了整合。共进行了2600次整合实验,涉及数据集间的下采样,并量化了不平衡对整合结果和下游分析(聚类,差异表达基因分析,细胞类型分类,从查询到参考的预测以及轨迹推断)的影响。
  • 发现有两个关键数据特性会导致不平衡环境下的下游结果改变:聚合的细胞类型支持(细胞类型不平衡)和最小细胞类型中心距离(转录组相似性)。
  • 为了在评估和基准测试中考虑不平衡的scRNA-seq整合场景,通常使用的指标和得分被重新制定,以重新加权不成比例的细胞类型,这包括bARI、bAMI、均衡同质性得分、均衡完整性和均衡V测量。
Para_02
  1. 在研究可以量化地导致整合后产生不同结果的因素后,我们发现细胞类型之间的转录组相似性(最小细胞类型中心距离)和细胞类型之间的不平衡(聚合细胞类型支持)在这方面最为相关且具有预测性(图1b)。
  2. 为了弥补基准测试中的空白,我们开发了平衡的聚类指标,这些指标会重新权衡基础得分,以便每种真实细胞类型对得分的贡献被同等考虑(图1c)。

Imbalance leads to cell-type-specific integration effects

不平衡导致细胞类型特异性整合效应

Para_01
  1. 我们开始分析一个 PBMC 队列,其中的两个批次/样本由两位来自不同健康捐赠者的样本独立处理。
  2. 在每个批次中进行了降采样,导致产生了六种主要细胞类型,并且每种细胞类型的细胞数量相等(每种细胞类型有 400 个细胞)(图 2a 和方法)。
  3. 选择的细胞类型在两批之间是相同的。
  4. 因此,存在的细胞类型、每种细胞类型的细胞数量以及在批次之间的细胞类型比例都是相等的,整合方案是平衡的(图 2a,b)。
  5. 样本之间存在批次效应(图 2b)(10x Genomics 3′ 相对于 5′ 协议;方法)。
  6. 我们旨在评估两批 PBMC 的整合结果在对照平衡数据和受扰动不平衡数据之间的变化。
  7. 对于每次扰动实验,我们随机选择两个批次中的一个批次和一个细胞类型,或者对其原始群体的10%进行降采样,或者完全从所选批次中消除移除(图 2c)。
  8. 扰动对于降采样和随机批次/细胞类型的消除反复进行了 200 次,而没有对平衡数据进行扰动的对照实验重复进行 400 次(方法)。

Fig. 2: Perturbation analysis of controlled PBMC dataset and effects on cell-type-specific integration.

  • 平衡的两个批次PBMC数据集的细胞类型和批次表示。
  • 对于平衡的PBMC数据,扰动设置。
  • 在每次迭代中,随机选择一个批次和一个细胞类型,并且细胞类型随机地被下采样到其原始数量的10%或被消除。
  • 也进行了对照实验,其中没有发生下采样。
  • 在控制、下采样和消除实验中以及跨方法的集成嵌入空间内的KNN分类(n = 800个独立的整合实验)。
  • F1分数指示的是同样被下采样的细胞类型。
  • 平衡的两个批次PBMC数据中相似细胞类型的分层聚类。
  • 在跨不同扰动实验(n = 800个独立整合实验)之后,使用KNN分类器进行的细胞类型特异性整合结果,设置与d相同。
  • 这里的细胞类型基于来自e的分层聚类后的标签。
  • 箱形图(d,f)表示实验中的中值;铰链是第25百分位和第75百分位的值;须条表示从铰链的1.5倍四分位距(IQR)值。
Para_02
  1. 全局指标,例如调整兰德指数(ARI),未能充分捕捉在不平衡情境下细胞类型特定的性能差异(补充说明1)。
  2. 因此,我们通过k近邻(KNN)分类器在细胞类型特定的层面上检查整合性能,该分类器分别在每种方法的70%整合后嵌入上训练,剩下的30%用作细胞类型分类的测试集(方法)。
  3. 训练/测试集的划分是分层的,确保两部分中细胞类型的比例相等(方法)。
  4. 总体而言,分类结果提供了数据集不平衡对细胞类型特定影响的证据,因为在整合后对特定细胞类型进行下采样或消融会导致同一细胞类型的KNN分类F1得分显著下降(ANOVA P < 0.05, F = 1,304.96)(图2d)。
  5. 这个结果与具体方法无关,因为ANOVA测试考虑了使用的方法和被下采样的细胞类型(方法)。
  6. 唯一表现出稳定性的细胞类型是B细胞(图2d;不同方法和实验类型中的中位F1得分标准差 < 0.01)。
Para_03
  1. 我们假设 B 细胞的整合性能不受影响,因为它们在转录上与其他细胞类型不同(补充图 24)。
  2. 作为测试,我们基于细胞类型的相似性,将它们进行分层聚类为三个更高层次的子集:B 细胞、单核细胞和自然杀伤(NK)/T 细胞(图 2e 和方法)。
  3. 对这些子集进行下采样并没有导致性能下降到与基础细胞类型相同的程度(图 2d, f)(ANOVA F = 374.46(分层)< 1,304.96(基础);补充图 7 和方法)。
  4. 这一结果表明,细胞类型的相对转录组相似性可以导致在不平衡情景下整合技术的细胞类型特定性能发生变化。
  5. ‘转录组相似性’特性形式化为最小细胞类型中心距离,而‘细胞类型不平衡’特性形式化为聚合细胞类型支持(图 1b 和补充说明 4)。
  6. 最小细胞类型中心距离是指在主成分(PC)空间中与最近细胞类型的距离,而聚合细胞类型支持是指跨所有批次给定细胞类型的细胞总数(补充说明 4 和方法)。
  7. 为简便起见,我们随后将这些特性分别称为细胞类型中心距离和细胞类型支持。
  8. 实验结果表明,这两个特性协同作用导致 scRNA-seq 整合中的定量差异。
Para_04
  1. 我们进一步测试了一种旨在处理CIDER不平衡的方法,但是,尽管CIDER和其他测试方法有相关声称,还是观察到了相同的效果(补充说明2)。

Balance and similarity affect downstream analyses

平衡和相似性影响下游分析

Para_01
  1. 为了进一步分析扰动实验对平衡 PBMC 队列的影响,我们量化了不平衡对集成后通常执行的下游分析的影响,包括无监督聚类、差异基因表达(DGE)、从查询到参考的注释和轨迹推断(图1a)。
  2. 我们使用与结果部分"不平衡导致细胞类型特异性集成效应"相同的数据集、扰动设置和下采样实验。
  3. 对不平衡对轨迹推断影响的评估是在一个单独的哺乳动物器官发生数据集上进行的。

Stability of unsupervised clustering after integration

整合后无监督聚类的稳定性

Para_01
  1. 我们观察到在所有测试的方法中,经过整合后推断的簇数量存在显著变化,这是因为细胞类型平衡的扰动(ANOVA P < 0.05,F = 10.189)(图3a和方法)。
  2. 在平衡和扰动实验的整合后,使用Leiden聚类算法进行聚类,使用的方法特定分辨率可以最佳地接近平衡数据中的真实细胞类型数量(方法)。
  3. 尽管所有方法都显示出在对照和抽样/消融实验之间的簇数量上至少有一定程度的变化,但也存在方法依赖性的影响(图3a)。
  4. 例如,Scanorama展示了簇数量的变化,无论细胞类型的样本量如何减少/消融,而自然杀伤(NK)细胞和FCGR3A+单核细胞的特定抽样/消融在整合后导致簇数量明显减少(图3a)。
  5. 对于BBKNN和Seurat,簇数量的最大减少发生在消融CD8+ T细胞之后(图3a)。
  6. 不论细胞类型如何变化,Harmony在样本减少/消融后表现出簇数量的增加,而scVI仅在受影响的单核细胞亚群发生变化时产生分歧(图3a)。
  7. 在对照实验中,通过不同的方法也观察到了变化,但在所有测试的方法中,扰动后有更强烈的偏移。
  8. 这一结果表明,即使簇的数量应该是稳定的,因为在所有批次中,细胞类型的数量在扰动和非扰动实验中保持不变,不同程度的不平衡仍然可以导致簇数量的偏离。

Fig. 3: Quantification of the effects of dataset imbalance on downstream analyses.

  • a,在不同扰动场景(类型)下整合平衡的PBMC数据集,并基于细胞类型下采样,各实验中基于Leiden聚类的每种方法结果中无监督聚类的数量。
  • b,平衡的PBMC数据集中细胞类型下采样时不同方法中的平均标记基因排名变化(平均标记基因扰动分数)。
  • c,平衡PBMC数据集中‘消融’实验类型中DGE的平均标记基因排名变化。
  • d,e,基于实验类型(对照、下采样和消融)和细胞类型下采样的平衡PBMC数据集中单个批次的查询到参考结果的细胞类型特异性L1注释(粗粒度)(d)和L2注释(细粒度)(e)准确率评分。
  • f,g,实验类型和实验中CD4+ T细胞和CD8+ T细胞按比例的L1预测(f)和L2预测(g)。
  • h,不同方法在平衡的间充质器官生成数据集中未整合数据与整合数据中细胞估计的伪时间之间的Spearman相关性。
  • 总共进行了n = 800个整合实验,涉及对照、下采样和消融子集,每个分析都有。
  • 箱线图(a,d,e,h)表示实验中的中位值;铰链是第25和第75百分位数值;而须线表示从铰链到1.5倍四分位距(IQR)的值。
  • 所有值都在a中的箱线图上叠加。

DGE and marker gene stability

差异基因表达和标记基因稳定性

Para_01
  1. 在单细胞RNA测序分析工作流程中,整合和无监督聚类之后的下一个常见步骤是差异基因表达(DGE)分析。
  2. 通常会对每个聚类进行一系列一对多的差异表达实验,使用统计测试如非参数Wilcoxon秩和检验或更适用于RNA-seq的技术如DESeq2,以确定排名靠前的"标记基因"。
  3. 这些标记基因用于将聚类注释为假定的细胞类型。
  4. 一种在扰动前后评估标记基因稳定性的方法是限制实验中的聚类数量相等,但这是不现实的,因为观察到在对照和扰动实验中聚类数量的变化(图3a和补充图15)。
  5. 由于‘标记基因排名’通常用于注释,我们认为基因在与已知细胞类型关联中的排名偏差是一个重要的终点。
  6. 我们确定了每种细胞类型的前10个标记基因,并评估其在扰动前后的排名稳定性(方法)。
  7. 标记基因排名在扰动后的变化被定义为‘标记基因扰动分数’(方法)。
  8. 在检查给定细胞类型的所有标记基因的情况下,跨标记基因的排名变化取平均值(‘平均标记基因扰动分数’)(方法)。
Para_02
  1. 对于大多数标记基因,我们观察到在降采样和消融后排名偏移达到10个之多(补充图12)。
  2. 如果将顶级标记基因作为注释的启发式,这可能导致生物学解释的变化(补充说明3)。
  3. 一项考虑了特定标记基因、方法和降采样的细胞类型的ANOVA测试表明,扰动导致了统计上显著的排名变化(ANOVA P < 0.05, F = 57.174—所有因素中最高的)(方法)。
  4. 我们检查了降采样或消融特定细胞类型是否会改变同一细胞类型的标记基因排名,结果表明所有方法都出现了这种情况(图3b,c)。
  5. 标记基因排名变化最显著的是在降采样或消融CD8+ T细胞和CD14+单核细胞后发生的(图3b,c)。
  6. 由于这两种细胞类型分别与CD4+ T细胞和FCGR3A+单核细胞高度相似,降采样会导致在综合表示和后续聚类步骤中丢失这些信息,而这些步骤是依赖于DGE步骤的。
  7. 这个结果与细胞类型中心距离和细胞类型支持特性之间的协同效应一致。
  8. 在未降采样或消融的细胞类型中也观察到了标记基因排名变化,例如在NK细胞中,这在Harmony和scVI结果中尤为明显(图3b,c)。
  9. 同样,这可能是由于引入失衡后簇内细胞类型混合,因为NK细胞在转录上与CD4+和CD8+ T细胞亚群非常相似(补充图24)。

Query-to-reference projection and cell type annotation

查询到参考投影和细胞类型注释

Para_01
  1. 在查询到参考的投影设置中,注释的准确性取决于集成空间的质量。
  2. 为了检查这种设置下不平衡的影响,我们使用了 Seurat 4.0 查询到参考注释管道以及一个拥有211,000个细胞的大规模多模态 PBMC 数据集作为参考。
  3. 在 Seurat 4.0 管道中,每个批次(查询)都被投射到参考数据集上,这样每个批次都可以单独进行集成。
  4. 对查询批次(平衡的PBMC双批次数据)进行了扰动,而参考集是静态的。
  5. 大多数细胞类型的注释在控制和下采样/消融实验中都保持稳定,几乎得到了满分。
  6. 然而,两个T细胞亚群的表现变化很大,无论是哪种细胞类型被下采样或消融。
  7. 这一结果表明,投影批次(已扰动)与参考数据集(在所有实验中保持不变)之间的不平衡正在驱动集成和随后的注释结果的变量。
  8. 这突出了与先前结果类似的问题,即扰动转录上相似的细胞类型(T细胞亚群)的平衡度可能导致与平衡情境相比生物学上不同的结果。
  9. 在给定批次内扰动平衡度后,权衡点偏向了任一T细胞亚群。
Para_02
  1. 在两个分辨率水平上更仔细地检查预测的细胞类型注释,我们观察到 CD4+ 和 CD8+ T 细胞在很大程度上被错误地注释为粘膜相关的先天性 T(MAIT)细胞(图 3f,g)。
  2. 在对给定细胞类型进行下采样或消融以及随后的同一细胞类型的注释准确性分析后,我们发现 CD4+ T 细胞的注释更加准确,而 CD8+ T 细胞则进一步被错误注释(图 3f)。
  3. 不仅是 CD4+/CD8+ 亚群之间的转录相似性,而且包括许多归为"其他 T"亚群的相似性,对于整合和随后的标签转移而言都是一个具有挑战性的问题。
  4. 正如扰动实验及其对注释结果的影响所指出的,当存在不平衡时,这一挑战被加剧。
  5. 与先前的实验类似,这一结果突显了细胞类型中心距离和细胞类型支持的综合效应。

Trajectory inference

轨迹推断

Para_01
  1. 由于平衡的 PBMC 数据集没有内在的分化轨迹,因此使用了一个包含在不同天测量的两批数据的小鼠器官发生数据集。
  2. 从该数据集中分离出间质轨迹,并将两批次中的丰富细胞类型下采样到相同数量,从而在细胞类型、细胞类型数量和比例上形成了一个平衡的场景(方法和补充图 17 和 18)。
  3. 下采样和消融实验的执行方式与平衡的 PBMC 数据集相同,并比较了整合前后估计的伪时间值的相关性(方法)。
  4. 然后检查了在对照组、下采样组和消融组中这些相关性的稳定性(方法)。
  5. 即使在这个数据集中批处理效应很细微,结果表明不平衡仍可能导致估计的伪时间值的不稳定性(ANOVA P < 0.05, F = 24.504)(图 3h)。
  6. 特别是,下采样或消融心肌细胞在不同方法中导致了最大偏差的相关性(图 3h)。
Para_02
  1. 总体而言,细胞类型失衡影响了测试的所有四个下游分析方面,我们观察到其对结果的生物学解释产生了明显的影响。
  2. 这种观察在复杂数据集中可能更加相关,因为平衡的PBMC和哺乳动物器官发生群体并不能代表scRNA-seq协议日益增加的通量。
  3. 对所测试的所有下游分析步骤的扩展分析,包括附加的稳定性实验,详见补充说明3。

Tumor compartment-specific effects of dataset imbalance

数据集不平衡对肿瘤部分的特定影响

Para_01
  1. 为了进一步分析复杂情境下数据集不平衡的影响,我们考虑了一个包含八个批次的 PDAC 数据集,该数据集包括来自八个不同活检的肿瘤样本。
  2. PDAC 数据分析的一个主要挑战是准确将肿瘤细胞与正常的非癌性上皮细胞区分开来。
  3. 由于在许多研究中,腺泡细胞和导管上皮细胞都被提议为 PDAC 的起源细胞候选者,在 scRNA-seq 数据中可靠地将肿瘤细胞与这些正常上皮细胞类型分开仍然是一个主要的计算挑战。
  4. 我们试图确定上皮正常与上皮肿瘤成分之间的不平衡水平是否会影响 PDAC 样本整合的准确性和后续的肿瘤细胞分类。
  5. 我们通过基于参考的注释和拷贝数分析对 PDAC 样本中的细胞进行了预处理和注释。
  6. 我们将上皮正常细胞(腺泡和导管)分入"上皮正常"部分,将肿瘤细胞分入"上皮肿瘤"部分,其余的微环境细胞分入"微环境"部分。
  7. 扰动实验包括在八个批次中的四个中随机选择一个成分进行下采样或删除,包含控制试运行后,总共进行200次整合实验。

Fig. 4: Compartment-wise perturbation experiments for eight batches of PDAC biopsy samples.

  • a,实验设置概述。为了确定数据集不平衡对上皮细胞隔区的影响,各种微环境细胞被整合到‘微环境’隔区,正常导管和腺泡细胞整合到‘上皮正常’隔区,而恶性导管和腺泡细胞则整合到‘上皮肿瘤’隔区。
  • 扰动实验涉及对八个随机选择批次中的四个进行降采样(隔区的10%)和消融(完全移除隔区),共计 200 次独立整合实验。
  • 请注意,所有批次使用每种方法同时整合。
  • b,PDAC 数据中各批次/活检样本中的细胞类型合并后,每个隔区的细胞数量。
  • c,一体化后使用 KNN 分类的 F1 分类得分,特定于每个隔区,与被降采样或消融的隔区比较,跨越实验和用于整合的方法。
  • 箱线图(c)表示实验中的中位值;铰链为 25th 和 75th 百分位值;须线表示从铰链值起 1.5× 四分位间距(IQR)范围的值。
Para_02
  1. 在这种高度不平衡的场景中,批量混合是整合性能的一个贫乏量化指标(图 4a,b)。
  2. 因此,我们在按隔室采样缩减,按隔室评估的基础上检查了 KNN 分类分数(方法)。
  3. 结果表明,缩减或移除微环境隔室会导致所有方法的隔室分类稳定,但在上皮正常和肿瘤隔室中,Seurat 的性能略有下降(图 4c)。
  4. 腺泡和导管细胞构成了上皮正常和上皮肿瘤群体,是数据中与其他细胞类型最远的两种(补充图 26)。
  5. 因此,这一结果与细胞类型中心距离特性一致。
  6. 缩减肿瘤和正常上皮隔室导致相同隔室的整合性能最大下降(图 4c)(上皮肿瘤,上皮正常 > 微环境;补充图 23 和方法)。
  7. 这些结果表明,跨肿瘤组织队列的转录相似隔室之间的不平衡程度可以显著影响下游结果以及可能的后续分析。

Balanced clustering metrics for imbalanced integration

用于不平衡整合的平衡聚类指标

Para_01
  1. 诸如ARI之类的指标对标签比例信息是不敏感的,并且被发现对于评估不平衡数据集中的集成性能是不够的。
  2. 因此,我们开发了这些评分的平衡版本,包括平衡调整兰德系数(bARI)、平衡调整互信息(bAMI)、平衡同质性、平衡完整性和平衡V测度。
  3. 这些指标对存在的每种细胞类型进行平等权重衡量,而不受高比例存在的细胞类型的驱动。
  4. 我们首先在模拟数据和一个构建的单细胞示例上展示了提出的平衡聚类指标的实用性和稳定性。
Para_02






请到「今天看啥」查看全文