专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
生信宝典  ·  经典入门 | 高级转录组分析和R数据可视化 ... ·  22 小时前  
BioArt  ·  Dev Cell | ... ·  昨天  
BioArt  ·  Nat Microbiol | ... ·  2 天前  
BioArt  ·  Cell | ... ·  3 天前  
51好读  ›  专栏  ›  生信菜鸟团

数据库介绍 | NAR | SPDB:一个全面的资源和知识库,用于单细胞分辨率下的蛋白质组数据

生信菜鸟团  · 公众号  · 生物  · 2025-01-16 14:51

正文

5年01月15日 07:34

Basic Information

  • 英文标题: SPDB: a comprehensive resource and knowledgebase for proteomic data at the single-cell resolution
  • 中文标题:SPDB:一个全面的资源和知识库,用于单细胞分辨率下的蛋白质组数据
  • 发表日期:11 November 2023
  • 文章类型:Na
  • 所属期刊:Nucleic Acids Research
  • 文章作者:Fang Wang | Guohua Wang
  • 文章链接:https://academic.oup.com/nar/article/52/D1/D562/7416372

Abstract

  1. 单细胞蛋白质组学使得能够在单细胞分辨率下直接定量蛋白质丰度,提供了超越转录组分析所能推断的关于细胞表型的宝贵见解。
  2. 然而,缺乏大规模集成数据库阻碍了研究人员访问和探索单细胞蛋白质组学,阻碍了该领域的发展。
  3. 为了填补这一空白,我们提出了一个全面的数据库,称为单细胞蛋白质组数据库(SPDB,https://scproteomicsdb.com/),用于一般的单细胞蛋白质组数据,包括基于抗体或质谱的单细胞蛋白质组学。
  4. 配备了标准化的数据处理流程和用户友好的网络界面,SPDB提供了统一的数据格式,便于与下游分析进行交互,并且不仅提供了数据集级别的搜索和探索能力,还提供了蛋白质级别的数据搜索和探索能力。
  5. 为了详细展示单细胞蛋白质组数据,SPDB还提供了一个从细胞元数据或蛋白质特征的角度可视化数据的模块。
  6. 当前版本的SPDB涵盖了133个基于抗体的单细胞蛋白质组数据集,涉及超过3亿个细胞和800多个标记/表面蛋白,以及10个基于质谱的单细胞蛋白质组数据集,涉及超过4000个细胞和7000多个蛋白质。
  7. 总体而言,SPDB旨在成为一个有用的资源,通过提供从单细胞角度深入洞察蛋白质组学的详细信息,促进更广泛的研究社区的研究工作。

Introduction

Para_01
  1. 利用单细胞分辨率改进分子谱分析,能够系统地阐述细胞行为、发育和疾病机制。
  2. 最近单细胞技术的进步使得能够在生物学中心法则的不同分子层面进行测量,包括DNA、RNA、蛋白质和代谢物。
  3. 用于量化基因转录水平的单细胞转录组学技术目前是最成熟且广泛应用的方法,通常被视为蛋白质表达的一种替代指标。
  4. 然而,这种替代假设忽视了mRNA与蛋白质水平之间由于复杂的转录后修饰、RNA/蛋白质降解以及翻译后修饰而产生的显著差异。
  5. 这些不同步的变化在单细胞水平上测量时变得更加明显。
  6. 在这方面,用于量化单个细胞内蛋白质水平的单细胞蛋白质组学技术正在迅速发展,并对直接表征蛋白质水平具有巨大潜力
Para_02
  1. 单细胞蛋白质组学使得能够在单个细胞内量化蛋白质丰度、鉴定翻译后修饰以及监测蛋白质形式的动力学成为可能,从而为理解超越转录组分析所能推断的细胞表型提供了宝贵见解。
  2. 2018年,《自然方法》将单细胞蛋白质组学技术列为‘值得关注的方法’。
  3. 2019年,《自然方法》的技术特色文章《单细胞蛋白质组学的梦想》中提到:随着单细胞蛋白质组学的发展,也许实验室可以避免从mRNA丰度来推断蛋白质水平的需求。
  4. 最近,通过结合新型样品制备过程与超高质量分辨率质谱以及同位素标记策略,显著提升了单细胞蛋白质组学技术。
  5. 这种自动化、高通量和可重复的过程能够在单细胞分辨率下检测到数千种蛋白质。
  6. 因此,2021年9月,《自然》杂志发表了一篇题为‘单细胞蛋白质组学占据中心舞台’的技术特色文章。
  7. 预计新一轮的单细胞蛋白质组学技术将对生物学和临床研究产生深远影响。
Para_03
  1. 单细胞蛋白质组学有两种主要的技术途径,即基于抗体的方法和基于质谱的方法。
  2. 基于抗体的单细胞蛋白质组学技术,如CyTOF和CITE-seq,能够实现大量细胞的高度通量检测,但由于高质量抗体和标记策略的限制,在可检测蛋白的数量和类型上(即大约50-100种标记/表面蛋白)存在局限性。
  3. 基于质谱的单细胞蛋白质组学技术,如SCoPE2和N2,具有互补的优势,包括能够检测相对大量的胞内蛋白,并且不依赖于抗体的存在。
  4. 然而,基于质谱的单细胞蛋白质组学技术本质上面临着低肽段覆盖率和蛋白丰度检测偏差的问题。
Para_04
  1. 虽然这些方法在样本制备、标记策略、测序技术和目标蛋白种类方面的多样性为单细胞蛋白质组学提供了各种特征方面,但产生的数据集复杂的格式和碎片化的处理程序阻碍了对这些已发表数据集进行重新分析的灵活性。
  2. 此外,由于这些单细胞蛋白质组学数据分散在各个平台上,如ProteomeXchange(一个主要用于存储原始质谱数据的提交门户)和一些自托管网站(提供湿实验室实验数据下载链接的网站,如Slavov实验室),因此找到相关的单细胞蛋白质组学数据集以支持后续研究可能具有挑战性和繁琐。
  3. 目前可用的数据仓库仅向用户提供数据存储、提交和下载的功能,但缺乏统一格式的用户友好型处理数据。
  4. 这也阻碍了现有数据分析工具的系统性基准测试以及专为单细胞蛋白质组学数据分析和解释而定制的强大计算方法的发展。
Para_05
  1. 截至目前,存在一些包含单细胞蛋白质组学数据的R软件包,如代表性软件包scpdata和HDCytoData。
  2. scpdata软件包的最新版本包含了来自13篇出版物的21个数据集,这些数据集是通过质谱法单细胞蛋白质组学技术产生的。
  3. 然而,尽管可以通过其配套软件包scp在R环境中实现可视化,但它缺乏一个直观的界面来展示每个数据集。
  4. 此外,scpdata软件包仅关注基于质谱法的单细胞蛋白质组学数据集,并未涉及基于抗体的单细胞蛋白质组学数据集。
  5. 相比之下,数据包HDCytoData收集了2个流式细胞术数据集和26个CyTOF数据集用于基准测试目的,这些数据已经被格式化为Bioconductor对象格式。
  6. 但是,HDCytoData中的数据集仅限于两种技术,主要是CyTOF,且仅来源于七篇出版物,并且HDCytoData软件包也没有直观的可视化模块。
  7. 另外,还有一个专门用于批量蛋白质组数据分析的数据库称为ProteomicsDB。
  8. 用户可以在ProteomicsDB上搜索感兴趣的蛋白质,以探索蛋白质信息和跨组织的整合表达。
  9. 然而,对于一个独立实验,ProteomicsDB只提供数据信息和原始数据链接,这可能给数据使用者带来不便。
Para_06
  1. 在本研究中,我们推出了SPDB,一个全面的单细胞蛋白质组数据库。
  2. 截至目前,SPDB整合了来自12种抗体基础和质谱技术的143个单细胞蛋白质组数据集,覆盖了超过3亿个细胞及四种不同物种中的8000多种不同蛋白质。
  3. 所有存储在SPDB中的数据集均经过标准化流程处理,统一为一致的数据格式。
  4. SPDB的数据探索模块从细胞或蛋白质的角度提供了多样化的可视化展示、数据集的分析结果以及蛋白质水平之间的比较。
  5. 此外,SPDB的蛋白质探索模块提供了至少在一个数据集中检测到的蛋白质的详细信息,并使用户能够直接探索相关数据集中相应的蛋白质表达。
  6. 总之,SPDB代表了针对单细胞蛋白质组数据的最大规模综合性数据库,并将为推动单细胞蛋白质组学在癌症研究和药物发现领域的广泛应用奠定坚实的基础

Materials and methods

Data collection and organization

数据收集与组织

Para_07
  1. 我们搜索了来自NCBI PubMed和Google Scholar的先前研究,使用与单细胞蛋白质组学相关的术语,并手动筛选所有候选研究以确认可公开获取的单细胞蛋白质组数据的可用性。
  2. 此外,我们还使用关键词‘配对的单细胞RNA和表面蛋白测序’从PubMed和Google Scholar搜索可获得的单细胞多组学数据(基因表达+表面蛋白表达)。
  3. 过滤后的数据集从Zenodo (https://zenodo.org/)、Mendeley Data (https://data.mendeley.com/)、GEO (https://www.ncbi.nlm.nih.gov/geo/)等关联的数据存储库下载。
  4. 与细胞和蛋白质相对应的元数据从原始论文及其附带的补充文件中检索。
  5. 经过标准化预处理后,相应数据被组装成封装对象,然后导出为可以在R环境中加载的rds文件,以实现预处理数据的直接访问。
  6. 在搜索和收集可用的单细胞蛋白质组数据集时,记录了不同级别的数据集属性,如几种宽泛类别(技术类型或物种)和细分类别(疾病或组织),并将数据集根据其主要属性以层次树结构分类组织,以便于感兴趣数据集的过滤和定位。

Preprocessing and analysis of antibody-based single-cell proteomic data

抗体为基础的单细胞蛋白质组数据的预处理和分析

Para_08
  1. 简而言之,对于通过抗体技术如CyTOF产生的单细胞蛋白质组学数据,原始的fcs文件按样本分割后,使用flowCore包(https://github.com/RGLab/flowCore)导入到R环境中,然后将数据矩阵和面板/样本元数据组装成SingleCellExperiment(SCE)类的对象,并使用CATALYST包(https://github.com/HelenaLC/CATALYST)中的反双曲正弦(arcsinh)函数进行转换。
  2. 为了去除碎片、双重细胞或死细胞,根据原始论文中的相应指导,对不同数据集应用了特定的筛选策略,使用了flowWorkspace包(https://github.com/RGLab/flowWorkspace)。
  3. 利用UMAP降维方法对细胞进行可视化的工作是使用CATALYST包完成的。
  4. 细胞下游的聚类分析是联合使用FlowSOM(https://github.com/SofieVG/FlowSOM)(设置xdim = 10, ydim = 10)和ConsensusClusterPlus包(https://bioconductor.org/packages/ConsensusClusterPlus/)(设置maxK = 20)进行的,由此产生了从2到20之间浮动的聚类数量。
  5. 每个数据集的所有聚类结果都存储在SCE对象中。
  6. 此外,在展示基于抗体的单细胞蛋白质组学数据的交互式图的可视化页面上,为了减少细胞元数据的冗余性,仅保留了中等聚类数量10和最大聚类数量20来进行可视化。

Preprocessing and analysis of single-cell multi-omics data

单细胞多组学数据的预处理与分析

Para_09
  1. 对于通过单细胞多组学技术(如CITE-seq和Abseq)生成的配对单细胞mRNA表达和表面蛋白表达数据,下载的RNA和蛋白质计数矩阵以及细胞元数据被导入到R环境中。
  2. 遵循Seurat v4软件包(https://satijalab.org/seurat/)的多模态分析流程,根据基因计数和表面蛋白计数进行细胞质量控制,对基因表达进行标准对数正态化处理,并对表面蛋白表达进行中心对数比(CLR)归一化处理(设置margin = 2),这些步骤依次完成。
  3. 为了下游分析,分别对RNA模态和蛋白模态应用PCA降维。
  4. 然后使用RNA和蛋白质相似性的加权组合进行了基于UMAP的多模态数据可视化。
  5. 同时利用智能局部移动(SLM)算法(设置分辨率 = 1)进行了基于加权SNN图的细胞聚类。
  6. 最后,为了保持数据集格式统一,预处理后的数据使用Seurat函数转换为SCE类的对象

Preprocessing and analysis of mass spectrometry-based single-cell proteomic data

基于质谱的单细胞蛋白质组数据的预处理和分析

Para_10
  1. 对于基于质谱的单细胞蛋白质组学数据,从诸如 MaxQuant (https://www.maxquant.org/) 或 DIA-NN (https://github.com/vdemichev/DiaNN) 软件获得的肽段水平报告离子强度(肽段 * 细胞)被导入到 R 环境中,使用 scp 框架 (https://github.com/UCLouvain-CBIO/scp) 进行后续数据分析。
  2. 遵循 scp 的程序,首先通过将相对强度除以各自的中位数或平均相对强度来对肽段数据中的列(细胞)和行(肽段)进行归一化,然后对肽段矩阵进行对数转换。
  3. 含有超过 99% 缺失数据的肽段被移除。
  4. 接下来,通过将每个肽段映射到相关蛋白质并使用 robustSummary 函数,将肽段水平强度聚合到蛋白质水平强度。
  5. 蛋白质数据采用与上述肽段归一化类似的策略进行归一化。
  6. 此外,含有超过 99% 缺失值的细胞和蛋白质被移除,并使用 K 最近邻 (Knn) 算法(k = 3)对蛋白质数据中的缺失值进行插补。
  7. 由于基于质谱的单细胞蛋白质组学在不同批次中捕获了细胞的蛋白质组,由不同批次间技术变异引起的批次效应通过使用 ComBat 函数去除。
  8. 此外,对于包含参考通道的几个基于质谱的单细胞蛋白质组学研究,例如 SCoPE2,通过对各自集合中的参考通道强度进行归一化来部分修正不同批次间的变异。
  9. 最后,预处理的蛋白质数据和细胞元数据被组装成一个 SCE 类的对象,随后使用 UMAP 降维和基于 Louvain 方法的聚类分析进行可视化

Protein information retrieval

蛋白质信息检索


Database implementation

数据库实现

Para_12
  1. SPDB 使用流行的网络框架 Flask(https://github.com/pallets/flask)构建。
  2. 对于 SPDB 的后端,我们使用 Python 来处理所有的数据流,如数据检索。
  3. 对于 SPDB 的前端网页,我们使用了 Jinja2(https://github.com/pallets/jinja/)的 HTML 模板。
  4. 网页上大多数元素的布局和样式都是通过 Bootstrap(https://getbootstrap.com/)库来安排的。
  5. 大多数数据可视化功能是利用 Echarts(https://echarts.apache.org/)库开发的。
  6. 网页上的交互是通过原始的 Javascript(https://www.javascript.com/)和 Jquery(https://jquery.com/)库实现的。
  7. Nginx(https://www.nginx.com/)被用作运行我们的网络应用的服务器。
  8. 前端所需的数据显示信息或可视化信息存储在 csv 文件中,并由 Flask 服务器解析。
  9. 所有数据处理流程都在服务器端通过 Pandas Python 包完成。
  10. Pandas 是用于数据分析和数据处理的强大 Python 包之一。
  11. 它包含大量方便的功能和工具,用于数据检索、数据格式转换等。
  12. 关于 Pandas 的更详细介绍可以在 https://pandas.pydata.org/ 找到。
  13. 为了更好地与 SPDB 基础设施兼容并确保流畅使用,我们建议使用以下浏览器:Google Chrome、Firefox 或 Microsoft Edge。
  14. 此外,为了加快交互式图表的渲染阶段并优化用户体验,我们将大规模数据随机下采样至 10 000 个细胞。

Results

Overview of SPDB

SPDB 概览

Para_13
  1. SPDB 是最大规模的综合性数据库,旨在收集、分析和可视化各种单细胞蛋白质组学数据,为研究人员提供了一种强大的工具,用于从单细胞角度研究蛋白质组学。
  2. 总体而言,SPDB 收集了由 6 种基于抗体的技术(CyTOF、CyTOF-Lec、CITE-seq、ECCITE-seq、Perturb-CITE-seq 和 Abseq)以及 6 种基于质谱的技术(T-SCP、PlexDIA、SCoPE2、pSCoPE、N2 和 nanoPOTS)产生的 143 个单细胞蛋白质组学数据集,涵盖了来自四种不同物种(即人类、小鼠、猕猴和猪)及 30 种组织的超过 3 亿个细胞(补充表 S1)。
  3. 在至少一个数据集中检测到了超过 8000 种蛋白质,其中包括超过 800 种表面蛋白和大约 7000 种胞内蛋白。
  4. 值得注意的是,有 90 个数据集涉及 42 种不同的疾病类型,例如 COVID-19、HIV 和乳腺癌,这将有助于从单细胞蛋白质组学的角度促进疾病研究和药物发现。
  5. 此外,这些数据集是从九个不同的平台收集和下载的,如 GEO、Zenodo、Mendeley Data、ImmPort 等。
  6. 作为一个用户友好的网络服务器,SPDB 提供了一系列全面的功能,包括单细胞蛋白质组学数据部署、数据集搜索与探索模块、蛋白质搜索与探索模块、数据统计模块以及详细的用户手册页面。

User-friendly data search module

用户友好的数据搜索模块

Para_14
  1. 为了方便用户轻松访问感兴趣的数据库,SPDB提供了三种数据查询选项:(i)在SPDB主页上按物种或技术类型分类安排了几个快速搜索按钮,使用户能够根据对特定物种或技术的兴趣方便地筛选数据库;(ii)存储在SPDB中的所有数据库都在数据页面进行了编目,并用原始论文对应的标题命名,使用户能够全面浏览数据库;(iii)数据页面提供了八个组成部分,即发布时间、样本物种、组织、疾病、技术和技术类型以及细胞/蛋白质的数量,为用户提供多种选择,可以根据一个或多个标准筛选数据库(图1A)。
  2. ,
  • 图1. 在SPDB中进行数据搜索和探索的演示。(A) SPDB中收集的所有数据集的浏览界面和筛选组件。(B) SPDB的数据信息面板。(C) SPDB的UMAP可视化面板。(D) SPDB的蛋白质比较面板。(E) SPDB的分析结果面板。

Comprehensive data exploration module

综合数据探索模块

Para_15
  1. SPDB 为研究人员提供了从多个角度全面探索先进的单细胞蛋白质组学数据集的便利。
  2. 应用数据过滤后,用户可以选择一个感兴趣的数据库,并通过点击相应的‘更多详情’按钮进入该模块的二级页面。
  3. 在那里,用户可以从不同角度(即关键信息、数据可视化、蛋白质比较)高效地探索这个数据集。
  4. 同时,统一格式处理后的数据可以通过点击‘rds 文件’按钮进行下载。

Key information of data

数据的关键信息

Para_16
  1. 用户可以直观地检查数据集的各种关键信息,包括细胞数量、蛋白质数量、样本种类、组织类型、主要细胞类型、样本状态或疾病情况,以及原始下载平台和链接(图 1B)。
  2. 此外,通过点击"摘要"按钮,用户可以查看从原始研究论文中提取的数据集简要概述。

Data visualization

数据可视化

Para_17
  1. 通过‘探索’选项访问子面板后,将显示数据集的交互式UMAP图,其中每个点代表一个细胞(图1C)。
  2. 用户可以灵活选择不同级别的细胞元数据,例如聚类ID或细胞类型,或者选择感兴趣的蛋白质来分别为细胞分配离散或连续的颜色。
  3. 同时,UMAP图将附带所选细胞属性或蛋白质的相应分布图,为用户提供有关细胞元数据或蛋白质表达的统计信息。
  4. 此外,对于一些特殊的细胞元数据,如聚类ID和细胞类型,标记信息表将伴随UMAP图一起展示。

Protein comparison

蛋白质比较

Para_18






请到「今天看啥」查看全文