专栏名称: 生信菜鸟团

生信菜鸟团荣誉归来，让所有想分析生物信息学数据的小伙伴找到归属，你值得拥有！

Nature，π-HuB，集成教程数据库等，一个中国和国际科学家组成的蛋白质组学联盟

生信菜鸟团 · 公众号 · 生物 · 2024-12-19 07:31

主要观点总结

关键观点总结

正文

Basic Information

英文标题：π-HuB: the proteomic navigator of the human body
中文标题：π-HuB：人体蛋白质组学的导航者
发表日期：11 December 2024
文章类型：Perspective
所属期刊：Nature
文章作者：Fuchu He | The π-HuB Consortium
文章链接：https://www.nature.com/articles/s41586-024-08280-5
网站地址： Welcome to π-HuB Project

Abstract

Para_01

人体包含数万亿个细胞，这些细胞被分类为特定的细胞类型，具有多样的形态和功能。
此外，同类型的细胞在个体的一生中可以在体内呈现不同的状态。
理解人类有机体及其许多潜在状态下的蛋白质组的复杂性是理解人类生物学的必要条件，但这些复杂性既不能从基因组预测，也未通过现有技术系统地测量过。
最近蛋白质组学技术和计算科学的进步现在提供了机会，使我们能够以前所未有的分辨率和规模研究人体复杂的生物学。
在这里，我们介绍一个称为π-HuB（人体蛋白质组导航器）的大科学项目。
π-HuB项目的目的是（1）生成和利用多模态蛋白质组数据集，以增强我们对人类生物学的理解；（2）促进疾病风险评估和诊断；（3）发现新的药物靶点；（4）优化适当的治疗策略；以及（5）实现智能医疗，从而开启由蛋白质组学驱动的明智医学新时代。
这一雄心勃勃的任务将由全球学术、工业和政府领域的多学科研究团队组成的国际协作力量来实施。

Main

Para_01

人类基因组计划（HGP）提供了人类基因组的综合图谱，并确定了该物种大约20,300个蛋白质编码基因。
这证明了数据驱动的大规模协调‘组学’项目在转化生物医学研究方面的力量，推动了基于基因组的精准医疗的发展。
人体包含大约37万亿个不同类型的细胞，具有多样的形态和功能，组织成组织和器官，所有这些细胞基本上共享相同的基因组。
此外，在个体的一生中，其体内的组织/器官和细胞经常会发生广泛的或可逆/不可逆的变化，以应对不断变化的条件。
自人类基因组序列发表以来的大约24年的经验表明，仅凭基因组信息无法预测观察到的细胞和有机体复杂性。

Para_02

人类生物学，以其所有错综复杂的特性，与通常被称为蛋白质‘宇宙’或更科学地称为蛋白质组（在特定时间点由基因组在任何细胞或组织中表达的所有蛋白质的集合）密切相关。
作为细胞机制的基本功能单元，蛋白质几乎参与了生物体内的任何生物学过程。
它们的重要性不仅限于正常生理学：蛋白质被认为是多种疾病发生和发展的重要因素。
在治疗领域，它们成为中心角色，是大多数药物的主要分子靶标。
因此，远远超出基因组学提供的静态视图，蛋白质组学提供了关于人体动态方面及其对变化条件适应的信息。
继人类基因组计划时代之后，基于人类蛋白质组的研究是生命科学和医学中最令人兴奋且最具挑战性的主题之一。

Para_03

2001年，与人类基因组序列的公布相吻合，一组蛋白质组学研究人员创立了国际人类蛋白质组组织（HUPO）。
2010年9月，HUPO迈出了国际合作努力的第一步，称为人类蛋白质组计划（HPP），旨在通过质谱找到所有人类蛋白质编码基因表达的高质量证据，并使它们能够常规且可靠地测量。
自那时起，HUPO激发和协调了许多在HPP框架内的研讨会。
十年后，即2020年，HUPO HPP项目团队描述了第一个高严格性HPP蛋白质组图，覆盖了90.4%的标准人类蛋白质组，这与人类基因组计划（HGP）过去十年取得的进展相似。
到2023年，已检测到预测的19,750种标准蛋白质中的18,397种（93%），并且已经生成了超过99%的注释人类蛋白质的高度特异性靶向质谱验证参考光谱。
自HUPO成立以来，其下出现了更多以生物学/疾病为中心的倡议，这些倡议旨在在一系列生理和病理条件下测量和解释人类蛋白质组数据，包括蛋白质丰度、翻译后修饰（PTMs）、相互作用伙伴和定位。

Para_04

第一个专门针对人体器官（人类肝脏蛋白质组项目）的蛋白质组学项目实际上是在2003年中国启动的，作为HPP的先驱。
这导致了对这一代谢器官中肝蛋白表达谱和蛋白质-蛋白质相互作用（PPIs）的表征，以及乙酰化在代谢调节中的重要作用的发现。
随后，其他组织或器官（如大脑、心脏、胃、皮肤和免疫细胞）的蛋白质组也得到了表征，创建了基于器官/组织的人类蛋白质组图谱的初步版本。
同时，越来越多的与疾病相关的器官/组织蛋白质组被分析，例如中国的中国人类蛋白质组项目、美国国家癌症研究所的临床蛋白质组肿瘤分析联盟、瑞士的肿瘤谱型项目、瑞典的人类蛋白质图谱和澳大利亚的ProCan。
此外，非质谱方法的最新进展为体液中的生物标志物发现提供了多样的机会，这被认为反映了一个人的健康或疾病状态。
所有这些努力都在显著推动该领域向以前被称为蛋白质组学驱动的精准医学时代发展。
尽管技术与计算方面取得了显著进步，我们才刚刚开始探索人类蛋白质组的复杂性，其在生物医学突破方面的全部潜力尚未得到充分利用。

Para_05

2020年，中国科技部资助了约40个蛋白质组学研究团队的国际合作，以构想未来的HPP相关项目。
自那时起，已建立了几个跨学科的工作小组，并组织了多次现场会议和网络研讨会，与政府和私人资助机构进行了沟通。
这些活动使我们能够提出一个名为人体蛋白质组导航器（π-HuB）的‘大科学’项目。
该项目现在正在组建由中国和国际科学家组成的联盟，从所有主要的人体组织/器官和细胞类型生成大规模蛋白质组数据集，并以前所未有的规模对数据进行综合分析。
目标是构建一个称为π-HuB导航器的智能计算引擎，该引擎将整合多模态蛋白质组数据集，以增强我们对人体生物学的理解，促进疾病风险评估和诊断，发现新的药物靶点，优化适当的治疗策略，并实现智能医疗保健。

Three central goals of the π-HuB project

Para_01

π-HuB项目的主要目标是，通过投资数十亿人民币（中华人民共和国的货币），支持科学家们进行为期三十年的国际和跨学科合作，以实现三个具体目标（图1）。

Fig. 1: Overall goals of the π-HuB project.

该示意图描绘了实现每个目标科学里程碑的主要技术策略的发展和整合。

π-HuB 项目将从对人类样本的广泛测量开始，并在个人生命周期内的数字蛋白质组解剖空间和状态空间中生成数据。

然后，它将利用数据和计算科学最新进展的优势，揭示人体的组成原理，生成一个称为 Meta Homo Sapiens 的数字化模型，并构建一个人体及其状态的全球定位系统。

Discover principles of the human body

发现人体的原理

Para_01

π-HuB 项目将首先将人体解剖为数字蛋白质组学空间的层次结构。
通过利用快速发展的技术，如单细胞和空间蛋白质组学，该项目将对人类身体的完整定量蛋白质组和细胞组成进行数字化，并不断优化，包括所有主要组织/器官的细胞组成、个体细胞类型的蛋白质组成和单个细胞，以及细胞内的以蛋白质组为中心的分子网络（例如，蛋白质翻译后修饰和蛋白质-蛋白质相互作用）。
利用多模态数据融合/集成技术的最新进展——特别是深度学习或基础模型的快速发展——高分辨率的基于解剖的蛋白质组数据将提供前所未有的机会来解码细胞/组织/器官的基本分子/细胞构建原则，并揭示生物过程的关键分子/细胞机制——即，从蛋白质网络到表型展示因果关系。

Develop the Meta Homo Sapiens model

开发元智人模型

Para_01

π-HuB 项目将深入研究人类蛋白质组在整个生命周期中的动态变化，探讨在群体水平上人类蛋白质组如何适应各种影响健康结果的因素。
因此，整个人体状态空间将被转化为多个子空间，这些子空间通过各种维度进一步细分。
具体目标是（1）追踪主要产前和产后阶段以蛋白质组为中心的轨迹，（2）描述复杂疾病发展和进展过程中复杂蛋白质组的纵向动态变化，（3）确定非遗传因素（例如共生微生物组、生活方式和不同环境）对人类蛋白质组的影响。
这些基于状态背景的蛋白质组学数据将与其他人类组学数据整合，这些数据来自互补的努力（例如，HuBMAP、人类细胞图谱、人类肿瘤图谱网络和生命时间倡议），并投影到一个称为 Meta Homo Sapiens 的数字化模型中。
构建这样的模型将通过人体组成原则来促进；它将使用记录器官、组织、体液和细胞在每个层级上的数字特征的三维解剖层次结构来制定，并且由时间序列帧组成，每个帧包含在单位时间内测量和增强的蛋白质组数据，以表示给定时间戳的人体状态。

Build the π-HuB navigator

构建π-HuB导航器

Para_01

π-HuB 项目的目标是实现蛋白质组学驱动的实践智慧医学，这是一种类似于与特定情况下的实际行动相关的实用智慧（phrónesis，源自古希腊）的概念。
与传统和当前的医学范式不同，实践智慧医学旨在发展提供人体状态时间精确控制的能力，以预防疾病。
这种能力应包括准确、高效的监测、诊断和治疗能力以及高度稳健的决策能力，用于疾病预测、早期预警、预防、控制和医疗保健。
它将通过建立监测、诊断和治疗决策及健康管理的普及化和规范化医疗模型，提供对人体状态的时间精确控制，以预防疾病。
为了实现这一目标，我们计划开发 π-HuB 导航器，这将是一种虚拟状态空间仪器，由生理表型和蛋白质组导向的空间时间生物化学/生物物理信息在细胞、体液、组织和器官中的融合创建而成。
它可以将原型元智人模型从主要身体条件转移到不同的二级状态，以获得现实模型。
随后，通过模拟每个模型在特定时期的身体动态，创建覆盖人体所有关键状态的状态空间，从而基于非侵入性蛋白质组快照和纵向蛋白质组测量，解决最有益于结果预测的方法。
最终，因果推断将用于识别引发相邻关键状态之间转换的根本触发因素。
每个状态空间可以被视为一个拓扑导航图，其中每个节点是由相应生物标志物定义的关键状态，两个节点之间的每条边记录了从一个状态转换到另一个状态的触发因素。
因此，构建这样的导航器将提供追踪健康轨迹的机会，定义疾病风险评估和早期诊断的重要因素，并推动新治疗方法和智能医疗方法的发展，以引导不健康的过渡向长期繁荣的生活方向发展。

Pillars for building the π-HuB navigator

Para_01

为了实现上述目标，该项目正在得到六个关键支柱的支持（图2）。

Fig. 2: Key pillars for implementation of the π-HuB project.

为了实现 π-HuB 项目的目标，该项目正在得到六个支柱的支持，这些支柱的关键组成部分已被列出。HT，高通量。

高通量是指能够快速处理大量数据或样本的能力。

Human biospecimens

人类生物样本

Para_01

人类生物样本是 π-HuB 项目的基本组成部分。
为了实现上述目标，π-HuB 的样本可以分为以下几类。
（1）基于解剖学的样本将包括根据最高伦理标准从尸检中获得的新鲜制备的器官、组织和活体人类样本。
（2）双胞胎队列将允许计算人群中观察到的变异性的遗传成分，并有助于控制复杂疾病病因学研究中的混杂因素。
（3）基于人群的队列将是来自世界各地不同地理区域、具有不同生活方式并处于不同环境下的大量个体的高质量生物样本的横断面收集。
（4）纵向队列研究将采用非侵入性或较少侵入性的方法，以相对较高的采样频率，对健康个体或具有明确暴露的患者进行采样，这些患者有健康或治疗意义或结果。

Para_02

实际上，π-HuB项目将首先使用来自世界各地现有最先进的生物库的样本，并且愿意与其他正在建设的资源密切合作。
该项目中的所有样本都需要用临床和人口统计信息进行良好且一致的注释，这些信息从多种来源获取，如问卷调查、体格测量、生化测试、医学影像数据、与疾病易感性相关的遗传变异记录以及基于可穿戴设备的记录等。
此外，注释应使用商定的元数据标准进行，这些标准对于数据的可访问性和互操作性至关重要，同时也有利于基于人工智能的数据整合跨生物信息资源。

Innovations in measurement technology

测量技术的创新

Para_01

考虑到该项目旨在以前所未有的分辨率和规模描绘人类蛋白质组，并且计划的时间范围为30年，测量技术的进步对其成功至关重要。
例如，迫切需要识别和测量单个细胞中的微量蛋白质。
近年来，我们见证了基于质谱的单细胞蛋白质组学（SCP）技术的巨大进步。
然而，使用现有技术对数百万到数十亿的人类细胞进行大规模的实际应用仍远非最先进。
目前基于质谱的SCP技术能够每单个细胞测量多达约4,500种蛋白质，但由于缺乏多路复用策略导致样品通量有限，仍然是SCP分析的主要缺点。
在这方面，项目将首先建立一个细胞类型解析的人类蛋白质组图谱（见下文），同时π-HuB将协调和支持国际社会努力，加速并评估不同平台和实验室的基于质谱的SCP技术。
一旦我们能够在π-HuB数据收集中心实现相对较高的SCP分析性能（例如，每天大约1,000个细胞，每个细胞超过3,000种蛋白质），项目将启动一项从人类样本中收集SCP数据的倡议。
与此同时，我们将密切关注具有重大潜力的新概念和技术，这些新技术有望在单细胞分析中实现广泛的序列覆盖。

Para_02

此外，π-HuB项目还将开发、集成和应用稳健的技术，用于生成表明蛋白质组功能状态的多维蛋白质组学数据。
这些技术的例子包括翻译后修饰、结构状态、定位和相互作用，以及这些属性在特定上下文中的相互依赖性。
为此，π-HuB项目将建立一个独立于自身技术中心的技术侦察部门，旨在识别和资助新兴技术。

Para_03

由于技术将迅速发展，该项目早期阶段获取的数据可能会被后期收集的数据所取代。
然而，这些早期数据对于数据分析和整合工具的开发和基准测试、为该领域的研究人员提供培训机会、展示联盟内的数据和样本互操作性程序以及支持试点研究将具有不可估量的价值。
此外，我们认为，像人类基因组计划（HGP）一样，该项目也将分阶段进行，在这些阶段中，高保真人类蛋白质组图谱的‘草图’将定期发布，并使用新技术进一步迭代为更准确和完整的版本。

[div_box]

Computational technology innovations

计算技术的创新

Para_01

除了数据收集之外，我们的目标还扩展到开发数据整合、分析和解释的方法和工具（框2）。
基于数据的建模方法，如自动机器学习（AutoML），在近似许多虚拟和现实世界系统方面证明了其强大的能力。
然而，将生物‘黑箱’转化为数字系统通常不会提供任何能够使其在临床实践中获得信任的知识或见解。
因此，π-HuB项目将在生物医学领域推动边界，揭示人体的分子重建。
受到数学直觉指导和假设提出成功的启发，可解释的人工智能（XAI）方法、大型语言模型（LLMs）和其他尚未构想的方法将被利用来解释一个适用于目的的深度学习模型，该模型从分子到细胞再到器官和系统级别的分辨率逐渐提高，从而发现关于生物事件的知识并建立构建理论。
在这种背景下，吸引人工智能从业者进入蛋白质组学领域将是关键。
有了这些新知识，将构建几个‘白箱’原型Meta Homo Sapiens模型，作为π-HuB构建系统基础模型的关键初步条件。
我们认为，由于项目联盟获取的蛋白质组学数据集在规模、收集、注释和处理的一致性以及对蛋白质组多个层次的覆盖方面具有独特性，π-HuB项目在应对数据科学挑战方面处于理想位置。

Big-science infrastructure

大型科学基础设施

Para_01

由于π-HuB项目将分析大量的人类样本（例如，来自人体器官的分选单细胞和临床队列的生物标本），因此需要超大规模的数据制造、收集和处理设施。
理想情况下，这些设施需要具备专业知识，并拥有标准化、可重复的管道来处理人类样本，在样本中进行以蛋白质组为中心的分子数据分析，并存储、传输、处理和解释这些数据。
因此，π-HuB项目将建立国家级设施/中心作为多层蛋白质组数据收集和处理的大科学基础设施。
至少，在π-HuB项目的第一个阶段，这样的基础设施每天应能够处理1,000-2,000个样本，并每天生成1 TB的质谱原始数据（截至今天，尽管预计这一数量将随着技术和仪器的发展而增加）。
在中国，只有少数现有的项目拥有这样的分析能力，包括用于‘一站式’样本制备的自动化工作站，超过40台前沿的高分辨率质谱仪以及名为‘天河二号’的高性能计算系统。
此外，中国许多其他大科学基础设施和国家重点实验室也承诺支持π-HuB项目，为项目带来最先进的单细胞技术、多模式跨尺度生物医学成像技术和基于云的高性能人工智能计算系统。
此外，π-HuB项目正在与全球大学或其他机构附属的研究实体现有的基础设施合作，如荷兰蛋白质组学中心和澳大利亚的ProCan。

Open resources

开放资源

Para_01

π-HuB项目将强调高效、国际化的开放资源，包括标准、样本及其注释、数据和关键分析工具。
像其他具有广泛用途的大型社区资源一样，该项目需要一个开放共享框架，以确保研究人员、资助机构和利益相关者之间的透明全球合作。
在这个框架内，π-HuB将最大限度地提高已收集人类样本的再利用和先前生成数据的再分析的重要性，以最大化科学进步带来的好处，同时最小化参与者隐私风险，并承认研究人员的贡献。
例如，所有π-HuB生成的（非敏感）原始数据将通过几个已建立的数据门户直接提供给国际科学界，这些数据门户实施了可查找、可访问、可互操作和可重用（FAIR）数据原则，如由ProteomeXchange联盟建立的PRIDE和iProX。
此外，还将开发生物信息学基础设施，将蛋白质组学图谱整合到UniProt中，UniProt是世界上使用最广泛的蛋白质知识库，以便整个生命科学界都能获取信息。
此外，该项目将通过基于π-HuB分子和空间数据开发的基于网络的Meta Homo Sapiens计算框架，使临床医生和患者能够自由查询医疗干预策略。

International research teams

国际研究团队

Para_01

第六个支柱是‘人’，包括研究人员、软件工程师、临床医生、病理学家、项目经理、行政人员、财务人员、律师、商业实体等。
π-HuB 项目的实施需要全球众多人员在决策机构的指导下协同工作，同时还需要明确的治理和问责指南。
具体来说，π-HuB 项目将由执行委员会指导和管理，并由咨询委员会监督。
此外，能力建设和文化交流将使国际研究人员在思想和成果交流以及研究和知识文化方面受益。
为了促进这一点，π-HuB 将设立多个奖学金/研究员项目，以促进这些交流，通过这些项目吸引更多的早期职业科学家参与这一具有远见的国际合作项目。

Challenges

Ethics

伦理学

Para_01

在π-HuB项目框架内，提出了若干措施来缓解蛋白质组学研究中确定的伦理和监管挑战。
特别是对于人类样本，项目必须建立一个共同、灵活且普遍接受的框架，涉及伦理审批标准、患者/捐赠者同意、样本注释本体材料转移协议和保密协议，这些可以被不同地理区域的政府接受。
此外，通过蛋白质组特征重新识别个人的风险需要进行细致的评估和管理。
为了保护π-HuB项目的伦理完整性并促进社会接受度，我们将建立一个专门的伦理委员会，其主要职责是监督项目的各个方面，包括生物样本收集、分析、数据管理和信息传播。
采取这种积极主动的态度来遵守伦理和法规将不仅增强π-HuB项目的科学可信度，还将加强公众的信任和参与。

Big data

大数据

Para_01

π-HuB 将与现有的国际数据中心紧密合作，如 ProteomeXchange 联盟，以保持蛋白质组学领域广泛采用的数据标准和管理规则的一致性。
然而，为了适应 π-HuB 项目，需要一个专门设计的数据中心。
首先，需要新的升级来存储和管理更多的元数据（例如临床信息），以满足项目的数据管理需求。
其次，它应该支持多组学和多模型数据管理和应用。
最后但同样重要的是，它需要对全球研究人员易于访问。
这将通过在不同国家建立分中心来实现，这些分中心可以满足每个国家的法律限制，同时使用总部中心提供的数据管理系统软件和技术支持来满足 π-HuB 项目的要求。

Data generation and integration

数据生成与集成

Para_01

来自不同模态的大量数据将在国际团队之间收集。
因此，有必要确保不同团队生成的数据具有可比性和可集成性。
π-HuB 联盟将首先确保所有人类样本都按照标准操作程序（SOP）进行处理，包括收集、注释、处理、存储和追踪等方面。
此外，为了确保每个数据收集团队能够生成高质量且统一的蛋白质组学中心数据集，π-HuB 项目将采用 HUPO 蛋白质组标准倡议的原则，以标准化基于质谱和非基于质谱的方法，包括样品制备、方法设置、数据分析、处理和错误控制，并为每一步制定 SOP。
鉴于预期的方法开发速度，联盟还将制定和共享标准、测试样品和基准数据，以帮助每个研究中心更新新技术的 SOP。

Para_02

此外，需要开发具有强大泛化能力的新计算方法和机器学习模型，以进一步发展蛋白质组学数据分析（例如，质量控制、数据清洗、归一化和缺失值填补），并特别解决可以从多模态和跨中心/实验室测量中受益的问题。
为此，我们将开发一个集中式的、基于云的交互平台，用于数据共享和分析，该平台将托管标准化的数据处理、整合和解释工具和流程。
最后，联盟将为所有成员提供全面的培训和支持，确保他们熟悉并遵守标准操作程序和计算工具。
这些努力将开发支持 π-HuB 数据调动的方法，通过提供新算法支持新见解的发现，并开发新的模型来统一多组学层。

Nature，π-HuB，集成教程数据库等，一个中国和国际科学家组成的蛋白质组学联盟

主要观点总结

关键观点总结

正文

Basic Information

Abstract

Para_01

Main

Para_01

Para_02

Para_03

Para_04

Para_05

Three central goals of the π-HuB project

Para_01

Discover principles of the human body

Para_01 (adsbygoogle = window.adsbygoogle || []).push({});

Develop the Meta Homo Sapiens model

Para_01

Build the π-HuB navigator

Para_01

Pillars for building the π-HuB navigator

Para_01

Human biospecimens (adsbygoogle = window.adsbygoogle || []).push({});

Para_01

Para_02

Innovations in measurement technology

Para_01

Para_02

Para_03

Computational technology innovations

Para_01 (adsbygoogle = window.adsbygoogle || []).push({});

Big-science infrastructure

Para_01

Open resources

Para_01

International research teams

Para_01

Challenges (adsbygoogle = window.adsbygoogle || []).push({});

Ethics

Para_01

Big data

Para_01

Data generation and integration

Para_01

Para_02

Modelling

请到「今天看啥」查看全文

Para_01

Human biospecimens

Para_01

Challenges