专栏名称: 智药邦
人工智能在药物研发领域的进展、探索与实践。
目录
相关文章推荐
野球帝  ·  推荐一款帽子!秒杀价,25元起! ·  昨天  
苏群  ·  卢卡爽了,丢下欧文怎么办? ·  3 天前  
野球帝  ·  杜兰特,又哭了... ·  2 天前  
51好读  ›  专栏  ›  智药邦

高分单细胞生信文章分析工具整理

智药邦  · 公众号  ·  · 2025-01-19 08:00

正文

本文对2023-2024年间,100多篇高分生信文章中广泛使用的分析工具进行了整理。这些工具涵盖了单细胞、转录组等。希望能对大家有所帮助。

单细胞上游处理


Cellranger:10x单细胞上游分析。

Spaceranger:10x空转上游分析。

Drop-seq管道:提取细胞条形码和UMI,并对修剪后的读序进行标记。

scNT-seq管道:定量标记和未标记的转录本,支持动态RNA转录本分析。

sam2tsv:用于检测比对序列中的碱基替换(如T-to-C替换)。

DNBelab C Series HT scRNA分析软件套件用于读序拆分、条形码处理和单细胞UMI计数。

https://github.com/MGI-tech-bioinformatics/DNBelab_C_Series_HT_scRNA-analysis-software/tree/version1.0

Fuscia:专为检测单细胞RNA-seq数据中的嵌合转录本而设计。结合条形码信息和转录组序列,识别由基因融合或异常转录事件产生的嵌合转录本。提供高灵敏度和高准确度的嵌合转录本检测。

单细胞分析管道


Seurat:单细胞分析管道。

Scanpy:单细胞分析管道。

CeleScope:单细胞分析管道。

Scprep: 单细胞分析管道。

SEURAT:单细胞分析管道。

TooManyCells:单细胞分析管道。

MERFISH data processing。

scVI:是一种基于变分自动编码器 (VAE) 的深度学习工具,专为单细胞RNA-seq数据设计,能够捕获高维单细胞数据的潜在分布。处理单细胞RNA-seq数据的噪声和稀疏性。降维、批次效应校正和数据整合。群体结构推断和基因表达模式的建模。辅助细胞聚类和轨迹分析。

Cellhub:单细胞下游分析。

scRepertoire:TCR测序分析。

单细胞污染去除


Soupx:细胞污染去除。

CellBender: 细胞污染去除。

decontX:细胞污染去除。

双细胞去除


DoubletFinder:双细胞去除。

Scrublet:双细胞去除。

scDblFinder:双细胞去除。

demuxlet:双细胞去除。

DoubletFinder:双细胞去除。

线性降维


flashPCA:PCA分析。

IRLBA : 实现高效的稀疏矩阵奇异值分解(SVD),特别适用于高维单细胞RNA-seq数据。支持快速计算PCA,适合处理大规模数据集。

FactoMinR:PCA分析。

cNMF:非负矩阵分解(NMF)方法,用于基因表达数据分解,提取基因表达程序。支持多次迭代以优化基因表达模式的识别。

acNMF 是一种改进的非负矩阵分解 (NMF) 方法,通过引入约束条件来分解基因表达矩阵,特别适合处理多组学或多样本数据。处理跨样本的一致性问题。用于单细胞数据的特征提取、模式识别以及信号分解。识别跨样本共享和特异性基因表达模式。

iNMF:是一种专门用于多组学数据整合的NMF方法。它结合跨样本一致性和局部结构捕获,适合整合单细胞RNA-seq和ATAC-seq数据。多模态单细胞数据的整合。提取跨组学的共享特征并捕获数据特异性模式。构建单细胞组学间的一致性表达模式,例如RNA和蛋白质表达的联动分析。

cnmf:细胞亚型识别。

NMF:亚型分析的运用。

DirichletReg:实现Dirichlet回归模型,用于分析组成数据(如比例数据或分布数据)。允许建模每个组成部分之间的依赖关系,并通过协变量解释这些关系。提供广义线性模型 (GLM) 的扩展,适用于具有多部分组成的高维数据。

speckle:使用propeller方法,该方法支持复杂的实验设计,能够对协变量(如年龄和性别)进行建模。

scITD:通过张量分解方法分析单细胞数据中的高维特征。识别跨患者共享的显著因子,并将这些因子与协变量(如年龄、性别等)进行关联分析。提供解释性张量分解,使生物学特征与统计结果的解读更直观。

jaccardtest : 计算成分矩阵列之间的Jaccard相似性指数和显著性P值。

igraph:构建无向网络图并执行社区检测,揭示数据分割之间的重复基因表达模式。

elbow : 通过计算凹曲线的拐点,确定排名(k)和Jaccard长度的最佳参数。

SignatureAnalyzer:是一种基于贝叶斯NMF的工具,用于解析多维组学数据中的基因表达特征签名,特别在癌症数据的基因表达模式研究中应用广泛。在bulk RNA-seq和单细胞数据中发现新的潜在调控模块。

单细胞聚类评价和差异分析


scib-metrics:生物保守性评估。

SCCAF:评估聚类精度。

Kruskal-Wallis:用于评估不同组之间的变量是否存在显著差异。

Dunn’s 事后检验:在Kruskal-Wallis检验显著的基础上,进行两两组间的事后比较分析。

HNSW algorithm:最近邻分析。

mgcv:提供广义可加模型(GAM)的实现,用于灵活建模非线性关系。使用GAM模型评估细胞组成与独立变量之间的关联,并识别可能的细胞组成异常。

gam 函数:构建广义可加模型,支持处理包含非线性效应的多重回归分析。

scClustViz:提供交互式的单细胞RNA测序聚类可视化和分析工具。通过分析每个聚类之间的差异表达基因数量,帮助用户选择最合适的聚类分辨率。支持结果可视化,便于评估聚类质量和分辨率调整的影响。

BIOMEX:提供用于比较和分析不同聚类之间相似性的方法。支持基于多种指标(如基因表达相似性或细胞类型分布)评估聚类关系。适用于单细胞RNA测序和其他高维生物学数据的聚类分析。

scCODA:用于单细胞数据中细胞组成差异分析的Python包,专注于统计检测不同条件下细胞类型比例的显著变化,同时考虑了数据的复杂性和统计依赖性。

Dirichlet-multinomial回归:用于分析成分数据(如细胞类型比例)之间的差异,同时考虑数据的依赖性(即组成部分总和为1的约束)。能够调整混杂因素(如批次效应),提高对不同组别细胞组成差异的检测能力。适用于分析具有多种组成部分(如不同细胞类型比例)的生物数据。

scrattch.bigcat:对大型单细胞转录组数据集进行高效聚类分析。为未标记的细胞分配细胞类别和子类别身份。过滤低质量或噪声聚类,提高聚类结果的准确性。

scrattch.hicat:提供单细胞RNA测序数据的聚类分析工具。支持高效处理和分析大型数据集。

单细胞批次去除


Harmony:去除批次(不同样本,不同分组等)。

HarmonyPy:去除批次(不同样本,不同分组等)。

Batchelor:去除批次。

CCA:去除批次。

RPCA:去除批次。

细胞类型纯度计算


ROGUE:细胞类型纯度计算。

Scran:细胞周期分布,细胞类型丰度。

Ro/e:期望细胞数量。

scCODA:细胞类型的统计差异。

GeneOverlap:量化两个或多个基因集之间的重叠程度。通过统计检验评估基因集之间的重叠是否具有显著性。在当前研究的细胞类型(T/NK细胞、B细胞和单核细胞)中,与T1DM相关的基因表达研究结果进行比较分析。

单细胞差异分析


Pseudobulk:单细胞差异分析。

NEBULA (Nested Hierarchical Bayesian Modeling):专门针对单细胞RNA-seq数据设计的差异表达分析工具。通过层次贝叶斯模型处理单细胞数据的嵌套结构(如样本内细胞的相关性)。提供NEBULA-LN方法,适合分析具有多层次依赖结构的数据。

NEBULA-LN:使用负二项分布模型校正单细胞数据的过度离散性。考虑细胞和样本间的嵌套关系,确保差异表达分析的准确性。

presto:提供高效的单细胞RNA测序数据差异表达分析工具。支持快速计算大型数据集中的差异基因表达。与单细胞分析工作流程兼容,用于聚类注释和基因筛选。

MAST:专门设计用于单细胞RNA测序数据的差异表达分析。基于线性混合模型,适应单细胞数据的高噪声和零膨胀特性。支持将协变量(如年龄、性别、批次效应等)纳入分析模型,精确检测与特定因素相关的差异基因。

富集分析


Metascape:富集分析。

gsFisher:富集分析。

gprofiler2:富集分析。

clusterProfiler:富集分析。

Ingenuity Pathway Analysis:富集分析。

ShinyGo:富集分析。

WebGestalt:富集分析。

Fsgea:富集分析。

Gorilla:富集分析。

DAVID:富集分许。

WebGestalt:富集分析。

Enrichr: 富集分析。

g:Profiler:提供基因集功能富集分析,支持多个数据库(如GO、KEGG和Reactome)。注释并富集与基因列表相关的生物学过程、分子功能和细胞成分。可生成高质量的可视化结果,用于展示富集分析的结果。

Hiplot Pro(https://hiplot.com.cn/):(基于GO数据库)进行基因富集分析。

scMetabolism:代谢富集分析。

co-enrichment patterns:多细胞间共富集模块。

GREAT:富集分析。

通路活性打分


Compass:通过计算代谢反应分数,评估单细胞水平的代谢状态。支持基因表达矩阵的归一化和代谢通路建模,估算细胞的代谢反应 活性。

GSVA:通路活性分析。

AUCell:通路活性分析。

PROGENy:通路活性分析。

meta-analysis:识别特定基因集。

AddModuleScore:通路活性分析。

UCell:基于基因表达数据计算单细胞或bulk数据中的基因签名评分。使用排名归一化的方法,不依赖于样本间的全局归一化。用于评估特定基因签名在单细胞分群或组间比较中的富集程度。在这里应用于比较组中的前200个正向差异表达基因,生成基因签名评分以量化基因集的生物学特征。

网络分析


Cytoscape:网络分析。

Intact:蛋白互作。

转录因子调控分析


SCENIC:转录因子分析。

SCENIC+:转录因子分析。

pycisTopic:转录因子分析。

pySCENIC:转录因子分析。

NetAct algorithms:转录因子分析。

Dorothea:转录因子(TF)调控网络的活性评分。

iRegulon:调控网络可视化。

单细胞拷贝数分析


InferCNV:拷贝数变异推断。

Infercnvpy:拷贝数变异推断。

CopyKAT:拷贝数变异推断。

Ikarus:一种逐步机器学习管道,试图处理区分肿瘤细胞和正常细胞的任务。

单细胞配受体通讯分析


iTALK:配受体分析。

CellChat:配受体分析。

CellCall:配受体分析。

CellPhoneDB:细胞通讯分析。

NicheNet:细胞通讯分析,Circlize进行可视化。

Calligraphy:细胞通讯分析。

LIANA+:细胞互作。

Network Analysis Toolkit for Multi-cellular Interactions (NATMI):配受体分析。

单细胞分化,拟时序分析


RNA velocity:追踪细胞亚型谱系轨迹 。

Velocyto:追踪细胞亚型谱系轨迹 。

Monocle2:时序分析。

Monocle 3:时序分析。

Waddington-OT:时序分析。

URD:拟时序分析。

TSCAN:时序分析。

destiny:基于扩散图的单细胞轨迹推断方法。使用扩散映射(Diffusion Maps)捕获高维单细胞数据中的连续变化轨迹。提供无监督的细胞状态动态过程可视化。

CytoTRACE:预测细胞分化状态。

scVelo:追踪细胞亚型谱系轨迹 。

Dyna-vivo-seq:提供标记和未标记转录本的数字基因表达矩阵,用于单细胞RNA数据分析。单细胞RNA动态分析:为了基于标准RNA动态(基于剪接)表征急性肾损伤(AKI)中 H-PST 细胞的动力学,使用Drop-seq管道生成的bam文件被加载到dropEst管道中,该管道用于对读序进行拆分,以区分剪接(spliced)和未剪接(unspliced)读序。参数设置为-m-V-b-f-LeiEIBA,并使用基因组注释(GRCm38)。随后,使用Dynamo(https://github.com/aristoteleo/dynamo-release/)进行RNA动态分析。两个计数矩阵(基于剪接和未剪接的RNA)作为输入,包含来源于高代谢AKI组织H-PST细胞的274个差异表达基因。动态模型设置为 “auto”,并将结果映射到二维UMAP空间。使用默认参数绘制streamline图。为了基于代谢标记法描述AKI期间PST细胞的RNA动态,使用新转录本和旧转录本的计数矩阵作为Dynamo的输入,计算基于代谢标记的时间分辨RNA动态。动态模型设置为 “auto”,并将NTR_vel设置为“TRUE”。

CellRank:追踪细胞亚型命运。

PAGA:追踪细胞亚型谱系轨迹。

diffusion map algorithm:描述细胞亚型状态转变。

PHATE:细胞分化分析。

Slingshot:用于推断谱系中PHATE减少的轨迹,并根据已识别轨迹的主曲线为细胞分配伪时间值。

GEMLI:用于根据单细胞RNA数据集(或任何其他类型的单细胞基因表达数据)预测细胞谱系(具有共同祖先的细胞),并在预测的细胞谱系中调用具有高基因表达记忆的基因。

单细胞注释


singleR:自动细胞注释。

CellTypist:细胞注释(免疫细胞)。

scANVI:细胞注释。

scArches:细胞注释。

SCINA:细胞注释。

MetaMarkers:用于跨数据集整合,识别具有广泛一致性的差异表达标记基因。基于共享的细胞类型和基因注释,生成排序的标记基因列表,确保跨数据集结果的可比性和可靠性。支持多数据集间细胞类型的整合分析,用于发现一致性高的生物学特征。

panglaoDB:注释网站。

CellMarker:注释网站。

SynEcoSys database:手动细胞注释。

TransferData:细胞注释迁移。

TOSICA:细胞注释迁移。

RCA2:对细胞进行基于参考的聚类,识别主要的免疫细胞类型。根据免疫细胞类型中检测到的基因数量分布 (NODGs),执行特定于聚类的细胞过滤,以确保分析质量和结果的可靠性。

Augur R包:通过机器学习模型评估不同细胞类型对特定生物学条件或扰动的响应性。生成响应性评分(AUC),用于量化细胞类型在扰动条件下的区分能力。支持多种扰动条件(如疾病、药物处理或时间点)下的细胞类型优先级排序。

VoxHunt:专为单细胞RNA-seq数据的空间身份注释设计。基于参考数据集,将细胞与特定解剖区域或组织对应起来。支持区域身份的高分辨率预测和可视化。

scArches:基于深度学习框架(如变分自动编码器,VAE),适用于单细胞数据的迁移学习。支持跨数据集、跨实验条件或跨物种的细胞身份预测。能够校正批次效应并在不同数据集之间共享信息,实现高效的细胞类型注释。

scCTS:用于从群体水平单细胞RNA测序数据中识别细胞类型特异性标记基因的工具。

单细胞反卷积分析


Scaden:scRNA-HTseq细胞类型反卷积。

MuSiC:用于单细胞数据和bulk RNA数据之间的细胞类型解卷积,估算bulk RNA数据中的不同细胞类型比例。

BisqueRNA:用于从单细胞RNA测序数据的原始计数矩阵生成表达数据集对象,并支持后续的解卷积分析。

Biobase:用于从bulk RNA测序数据生成表达数据集对象,便于进行下游分析。

CIBERSORTx:从单细胞RNA测序 (scRNA-seq) 数据集中构建自定义的细胞类型签名参考矩阵。根据RNA-seq和微阵列数据推断各细胞类型的相对比例。支持逐一处理表达数据集,从而减少或消除批次效应的影响。

BayesPrism:基于贝叶斯框架进行bulk RNA-seq数据解卷积,提供细胞类型比例估算。可处理复杂样本中的多个细胞类型,并准确评估不同细胞类型的基因表达特征。支持整合外部参考数据以提高解卷积的准确性。

单细胞可视化


scCustomize:单细胞可视化。

TBtools:单细胞可视化。

riverplot:用于创建流图(river plot),直观展示多个变量或类别之间的关系。支持复杂数据的可视化,例如类别之间的转换或关系分布。提供灵活的定制选项,如颜色、节点大小和流动方向。

单细胞扰动分析


CellOracle:扰动分析。

CERES:结合基因拷贝数和sgRNA丢失数据,去除基因拷贝数变化的偏倚影响。精确评估细胞对目标基因的依赖性,揭示潜在的癌症驱动基因或治疗靶点。

普通转录组分析







请到「今天看啥」查看全文