专栏名称: BioArt
BioArt致力于分享生命科学领域科研学术背后鲜为人知的故事,及时报道和评论生命科学领域有料的动态,BioArt也是一个生命科学领域“百花齐放,百家争鸣”的舞台,循“自由之思想”与“独立之精神”为往圣继绝学。
目录
相关文章推荐
生物学霸  ·  北京大学实验动物中心招聘博士后 ·  昨天  
BioArt  ·  Sci ... ·  2 天前  
BioArt  ·  中山大学中山医学院诚聘海内外英才 ·  2 天前  
生信宝典  ·  Nature Communications ... ·  6 天前  
51好读  ›  专栏  ›  BioArt

Nat Methods | 瞿昆/黎斌/陈发来合作系统性评估单细胞多组学分析算法

BioArt  · 公众号  · 生物  · 2024-09-28 09:48

正文


单细胞多组学技术(如CITE-seq、REAP-seq、SHARE-seq和10x Multiome等)的发展,为深入理解细胞功能和复杂的基因调控机制提供了前所未有的机遇。然而,湿实验方法通常伴随高成本、数据质量有限以及批次效应等挑战。为克服这些局限,生物信息学家基于统计模型和人工智能技术,开发了多种算法。这些算法不仅能够利用单细胞转录组数据推断同一细胞内的蛋白质丰度和染色质可及性信息,还通过将不同模态的数据映射到统一的特征空间实现数据整合,去除批次效应。这些工具大大提升了现有单细胞数据的解析能力。然而,面对海量数据和众多算法,研究人员往往难以判断哪些工具最适合他们的研究,因此,对这些算法进行基准测试(benchmarking)尤为重要。


2024年9月25日,中国科学技术大学生命科学与医学部瞿昆教授课题组、北京生命科学研究所黎斌研究员课题组,以及中国科学技术大学数学科学学院陈发来教授课题组联合在Nature Methods期刊上发表了文章“Benchmarking algorithms for single-cell multi-omics prediction and integration”。他们通过对百万量级单细胞多组学数据进行分析,系统评估了14种单细胞模态预测算法和18种单细胞多组学整合算法的性能。




在本次研究中,团队收集了来自47个数据集的上百万个单细胞多组学数据,涵盖多个生物样本和实验平台。他们设计了一套全面的评估流程,结合算法的准确性、鲁棒性和计算资源消耗等多维度指标,系统评估了领域内最常用的算法。结果显示,在蛋白质丰度预测方面,totalVI 和 scArches 表现最为优异;在染色质可及性预测中,LS_Lab 算法排名领先。在多组学整合分析中,Seurat、MOJITOO 和 scAI 在垂直整合上表现突出,而 totalVI 和 UINMF 在水平整合和马赛克整合任务中展现了卓越性能。这一研究不仅为算法设计提供了新思路,还为未来多组学数据的分析和应用奠定了重要基础。为帮助科研人员选择合适的分析工具,研究团队在GitHub上发布了完整的分析流程、代码和测试数据集,供同行使用和改进。


研究团队还通过深入探讨这些算法的数学原理,发现降噪处理是提高单细胞数据预测精度的关键。在性能评估中,机器学习算法(如基于奇异值分解的LS_Lab 和 Guanlab-dengkw)以及基于概率模型的深度学习算法(如totalVI)均表现出显著优势。然而,研究还指出,现有模态预测算法在某些关键蛋白的预测性能上仍有待提升,染色质可及性预测的准确性也需进一步优化。


图1. 评估流程示意图


该研究由瞿昆教授、黎斌研究员和陈发来教授共同指导并担任通讯作者,博士后胡银雷、博士生万思远和罗袁涵宇为共同第一作者。

在组学大数据时代,对复杂数据的精确解析需要依赖生物学与数学、计算机科学的深度融合。跨学科合作不仅推动了生物医学领域的创新发展,也为未来研究提供了新的可能性。此次研究的成功正是多学科背景团队密切合作的结果,充分展示了学科交叉在现代生物学研究中的重要性。通过这样的合作,研究团队期望进一步推动单细胞多组学技术在科学研究中的广泛应用,为基础研究和临床应用提供新的洞见。

原文链接:
https://www.nature.com/articles/s41592-024-02429-w

BioART战略合作伙伴

(*排名不分先后)


BioART友情合作伙伴
(*排名不分先后)

转载须知


【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。





BioArt

Med

Plants

人才招聘

会议资讯



近期直播推荐