专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
FM1007福建交通广播  ·  辽宁一“女神”形象花灯引争议,网友称还不如去 ... ·  3 天前  
FM1007福建交通广播  ·  辽宁一“女神”形象花灯引争议,网友称还不如去 ... ·  3 天前  
中国舞台美术学会  ·  资讯丨2025年全国春节文化和旅游消费月在吉林启动 ·  3 天前  
中国舞台美术学会  ·  院校丨造型基础教研室——中国戏曲学院舞台美术 ... ·  3 天前  
中国舞台美术学会  ·  秀赏丨神仙打架般的音乐节现场!看看这些电音舞 ... ·  4 天前  
中国舞台美术学会  ·  关注丨“舞台装置技术研讨会暨颁发中央戏剧学院 ... ·  5 天前  
51好读  ›  专栏  ›  生信菜鸟团

Cell | 健康与疾病中 53,026 名成人的血浆蛋白质组图谱 | 提供结果数据和源代码

生信菜鸟团  · 公众号  ·  · 2025-01-16 14:51

正文

Basic Information

  • 英文标题: Atlas of the plasma proteome in health and disease in 53,026 adults
  • 中文标题:健康与疾病中 53,026 名成人的血浆蛋白质组图谱
  • 发表日期:22 November 2024
  • 文章类型:Resource
  • 所属期刊:Cell
  • 文章作者:Yue-Ting Deng | Jin-Tai Yu
  • 文章链接:https://www.sciencedirect.com/science/article/pii/S0092867424012686

Highlights

Para_01
  1. 构建涵盖1706种人类疾病和特征的全面蛋白质组学图谱
  2. 基于机器学习的大数据分析揭示有前景的诊断和预测生物标志物
  3. 识别出37种药物重新定位前景和26个潜在的安全靶点
  4. 提供一个开放获取的蛋白质组-表型组资源以推进精准医学

Summary

Para_01
  1. 大规模蛋白质组学研究可以深化我们对健康和疾病的了解,并促进精准医学的发展。
  2. 在这里,我们提供了英国生物银行(UK Biobank)中53,026名个体(中位随访时间:14.8年)的详细血浆蛋白图谱,该图谱链接了406种常见疾病和660种新发疾病以及986种与健康相关的特征,代表了迄今为止最全面的蛋白质组谱。
  3. 这一图谱揭示了168,100个蛋白质-疾病关联和554,488个蛋白质-特征关联。
  4. 超过650种蛋白质在至少50种疾病中共存,超过1,000种蛋白质显示了性别和年龄上的异质性。
  5. 此外,蛋白质在疾病鉴别方面表现出巨大的潜力(183种疾病中的曲线下面积[AUC] > 0.80)。
  6. 最后,整合蛋白质数量性状位点数据确定了474种因果蛋白质,提供了37种药物再利用机会和26种具有有利安全性的潜在靶标。
  7. 这些结果提供了一个开放获取的综合蛋白质组-表型资源(https://proteome-phenome-atlas.com/),有助于阐明疾病的生物学机制,并加速疾病生物标志物、预测模型和治疗靶标的开发。

Graphical abstract

Keywords

  • proteomics; protein; disease; health; atlas; pQTL; disease association; prediction; diagnosis; therapeutic targets

Introduction

Para_01
  1. 随着世界人口的快速增长和老龄化,提高健康水平和减轻疾病负担的需求日益增加。
  2. 疾病预防和治疗面临的挑战包括缺乏可靠的个体化风险预测模型以及现有治疗方法在疗效和不良反应方面的差异,这突显了精准医学的重要性。
  3. 目前,精准医学的实施主要集中在识别人类疾病的基因基础,并已显示出初步效果。
  4. 然而,基因转录和翻译过程中的复杂和不确定的调控机制阻碍了对因果基因的推断,从而限制了基于基因型到表型关联的机制理解及药物开发。
  5. 蛋白质是疾病遗传和环境风险的最终生物效应因子,直接反映了人体内的生物学过程和病理生理变化。
  6. 阐明蛋白质与疾病的关系有望描述不同健康状态和疾病条件下的生物学特征,
  7. 从而促进精准医学的发展,使其更加便捷和可行。
Para_02
  1. 高通量蛋白质组学技术的进步为系统性探究健康状态和疾病的蛋白质谱提供了难得的机会,促进了机制理解、生物标志物识别、风险预测、不良药物反应的早期检测以及衰老的研究。
  2. 然而,大多数当前的蛋白质组学研究仅关注有限的疾病结果。
  3. 尽管这些研究揭示了一些特定于疾病的蛋白质组变化,但缺乏全面的人类蛋白质组-表型组图谱也引发了许多问题。
  4. 例如,与疾病和健康相关特征相关的蛋白质是特异性的还是共享的?那些蛋白质组谱能否促进人类疾病的生物学分类?
  5. 那些血浆蛋白如何有助于对数百种疾病的微创评估和跟踪?
  6. 那些相关蛋白质是否在因果关系上与疾病有关,而那些因果蛋白质是否有可能成为治疗靶点?
  7. 回答这些问题具有挑战性,因为蛋白质组学和表型组学的复杂性迄今为止阻碍了对人类疾病和健康的深刻认识。
Para_03
  1. 这里我们展示了全面的蛋白质组和表型组关联图谱(https://proteome-phenome-atlas.com/),通过系统地将2920种血浆蛋白映射到53026名个体中的720种疾病的存在和发作以及986种与健康相关特征上。
  2. 这一图谱提供了对疾病间共享和特异性生物学机制的见解。
  3. 结合机器学习的蛋白质组学谱系识别了多种健康状况的有用生物标志物和预测模型。
  4. 通过整合蛋白质数量性状位点(pQTL)数据,我们展示了如何使用该图谱进行因果蛋白质发现,并进一步优先确定药物靶标。
  5. 我们的蛋白质组和表型组图谱提供了广泛的研究资源,支持未来在人类疾病筛查、诊断和治疗方面的研究。
  6. 总体分析流程见图1A和S1。
  • 图1。蛋白质-疾病关联分析结果总结(A)分析流程图。基线时(2006-2010年)收集了血浆蛋白和健康相关特征的数据,而疾病数据则与英国电子健康记录链接,并详细记录了诊断时间,包括基线前后的数据。基于横断面数据和事件时间数据分别进行关联分析,以揭示不同表型的蛋白质组学特征,随后深入探讨生物学见解、预测和诊断效用以及药物靶点评估。使用BioRender(BioRender.com/o97h873)创建。(B和C)通过(B)逻辑回归和(C)Cox回归揭示的蛋白质-疾病关联,按疾病章节着色。仅绘制显著关联(B,n = 60,942;C,n = 107,158)。实心圆表示正向关联(风险比[HR] > 1),空心圆表示负向关联(HR < 1)。ENT,耳鼻喉。
  • (D)每个疾病章节中具有最大数量显著关联的三种主要疾病,按疾病章节着色。条形图上的蛋白质对应于相应疾病的最小p值。CLL_EXALLC,慢性淋巴细胞性白血病和小淋巴细胞性白血病,排除所有癌症(对照排除所有癌症);BLOOD_IMMUNE,血液、造血器官和免疫系统疾病;T2D,2型糖尿病;FLUIDELECTRO,其他体液、电解质和酸碱平衡紊乱;NAS,未分类;SKIN_SUBCUTANEOUS,皮肤和皮下组织疾病;RENAL-TUBULO,肾小管间质性肾脏病。(E)现有疾病和新发疾病显著关联数量的比较。
  • (F)现有疾病和新发疾病关联方向不一致的蛋白质-疾病对,按疾病着色。误差条代表95%置信区间(CI)。(G)性别(上)和年龄(下)亚组分析中显著关联数量的比较。红色字体表示纵向分析中的显著关联数,蓝色字体表示横断面分析中的显著关联数。(H)性别(上)和年龄(下)亚组分析中关联方向不一致的蛋白质-疾病对,按疾病着色。误差条代表95%CI。另见图S1。
  • 图 S1。与图 1 相关的分析流程。首先,我们纳入了 53,026 名具有可用蛋白质组学和表型数据的参与者。
  • 具体来说,我们提取了 2,920 种蛋白质、406 种常见疾病终点、660 种新发疾病终点以及 986 种特征用于主要分析。
  • 通过逻辑回归模型(常见疾病)和比例风险回归模型(新发疾病)分别研究了血浆蛋白与疾病之间的关联。
  • 通过线性回归模型(连续性特征)、逻辑回归模型(二元特征)和比例优势逻辑回归模型(有序分类特征)分别研究了蛋白质与特征之间的关联。
  • 进行了针对不同性别和年龄(中年:39-59 岁;老年人:≥60 岁)的亚组分析。
  • 其次,我们研究了蛋白质-疾病关联提供的关于疾病生物学的见解。
  • 第三,我们研究了蛋白质对疾病鉴别的重要性。
  • 基于三种模型(即仅蛋白质模型、仅人口统计学模型和综合模型)估计了识别出的蛋白质的预测和诊断效果,并使用 DeLong 检验比较了这三种模型的表现。
  • 最后,我们研究了蛋白质与疾病之间潜在的因果关系。
  • 对于具有因果关系的蛋白质,我们评估了它们作为治疗靶点的潜在价值。

Results

Population characteristics and phenotypes

人口特征和表型

Para_01
  1. 我们纳入了53,026名参与者,平均年龄为56.8岁,其中53.9%为女性,93.7%为白人(表S1)。
  2. 2,920种符合质量控制标准的蛋白质被纳入后续研究(表S2)。
  3. 包括了两大类表型,分别是疾病和与健康相关的特征。
  4. 常见疾病的终点是二元结果,在采血前和采血时发生了超过100起事件。
  5. 新发疾病的终点被组织为事件发生时间的数据,采血后在平均14.8年的随访期间发生了超过100起事件(表S3和S4)。
  6. 与健康相关的特征包含连续、二元和有序分类变量,并通过PEACOK软件包20处理(表S5)。
Para_02
  1. 我们总共纳入了406种常见疾病终点,660种新发疾病终点和986种与健康相关的特征。
  2. 然后,我们将常见疾病分为14个章节,其中消化系统疾病占比最大(17.2%)(图S2A)。
  3. 每章节的平均常见疾病病例数在286到865之间,循环系统疾病排名最高(图S2B)。
  4. 新发疾病被分类为13个章节(图S2A)。
  5. 每章节的平均新发疾病病例数在483到1,508之间,其中循环系统疾病也排名最高(图S2B)。
  6. 根据英国生物样本库(UK Biobank, UKB)路径,我们将特征分为11个章节,其中核磁共振(NMR)光谱衍生的代谢组学特征占比最大,占25.5%(图S2C)。
  7. 各章节特征的平均样本量从17,880到49,267不等(图S2D)。
  • 图 S2。包括的表型的分布和样本量,与图 1 相关(A)根据 ICD-10 分类章评估的研究中的流行病和新发疾病的百分比。(B)每种流行病和新发疾病的平均病例数按 ICD-10 分类章分层。条形图表示病例数的最小到最大范围。(C)根据 UKB 分类章评估的研究中的健康相关特征的百分比。(D)每种特征的平均病例数按章节分层。条形图表示病例数的最小到最大范围。

Atlas of protein-disease associations

蛋白质-疾病关联图谱

Para_01
  1. 我们首先试图通过逻辑回归和Cox比例风险回归模型理解2,920种蛋白质循环水平与406种常见疾病和660种新发疾病之间的关系(STAR方法)。
  2. 我们确定了60,942个蛋白质-常见疾病对,在严格的Bonferroni校正阈值p < 4.21 × 10−8(p < 0.05/[2,920∗406])下显著相关(图1B)。
  3. 此外,在Bonferroni校正阈值p < 2.59 × 10−8(p < 0.05/[2,920∗660])下观察到107,158个显著的蛋白质-新发疾病关联(图1C)。
  4. 正如预期的那样,已建立的关联包括NTproBNP与心脏原因导致的死亡有关21以及GDF15与糖尿病有关22,这些是最重要的蛋白质-常见疾病关联之一。
  5. WFDC2与流感和肺炎等新发呼吸道疾病的风险相关,而GDF15与某些感染性和血液系统疾病有关,包括隐性败血症和贫血,验证了先前的研究23,24,25,26,并确认了我们的方法的有效性(图1D)。
  6. 值得注意的是,我们的结果还揭示了之前未报告的蛋白质-疾病关联。
  7. 主要发现的新发泌尿生殖系统疾病包括慢性肾病,其中包含之前报道的蛋白质生物标志物27和其他高危险比(HR)的未报道的蛋白质,如NBL1(HR[95%置信区间(CI)]= 17.055[15.566–18.686], p < 1 × 10−300),COLEC12(HR [95% CI] = 16.320[14.985–17.774], p < 1 × 10−300)及其他。
  8. 此外,我们发现了1,977个对常见和新发疾病都有保护作用的关联(数据S1)。
  9. 在这类蛋白质中,EGFR表现出最广泛和最显著的保护作用,影响了90种疾病。
  10. 最大的保护作用是对高血压肾病的影响(比值比[OR][95% CI] = 0.020[0.009–0.044], p = 5.97 × 10−23;HR[95% CI] = 0.166[0.109–0.253], p = 6.50 × 10−17),支持EGFR信号通路在肾脏损伤中的关键作用28(数据S1)。
Para_02
  1. 我们随后比较了常见疾病和新发疾病之间蛋白质排名及其关联方向。
  2. 大多数蛋白质-疾病联系在这两种分析中同时被观察到(图1E)。
  3. 我们根据p值对蛋白质进行排名,并计算每种蛋白质在多少种疾病中获得第一名。
  4. 在前十名中蛋白质获得第一名数量最多的前六种蛋白质在常见疾病和新发疾病中是共享的(GDF15、WFDC2、NTproBNP、CHGA、COL9A1和IGFBP4),这表明重要蛋白质在发病前后都会发生变化(数据S1)。
  5. 此外,大多数蛋白质-疾病关联在常见疾病和新发疾病中表现出一致的效果,而27种蛋白质在常见疾病和新发疾病中的效果不同(图1F)。
  6. 例如,患有常见2型糖尿病(T2D)的患者显示出较高的DSG2、ART3和KLB水平(比值比[95%CI] = 2.415 [1.982-2.943]、1.527 [1.313-1.776]和1.282 [1.188-1.384],分别)。
  7. 然而,这些蛋白质被确定为2型糖尿病新发风险的保护因素(风险比[95%CI] = 0.586 [0.527-0.652]、0.734 [0.676-0.796]和0.879 [0.844-0.915],分别)。
  8. 例如,参与细胞粘附和信号传导的DSG2可能最初保护胰岛细胞并帮助胰岛素分泌,但随着2型糖尿病的发展,其水平升高可能表明对胰岛素抵抗的一种代偿反应(数据S1)。
  9. 因此,蛋白质与常见疾病和新发疾病的趋同关联可能突显出其在整个疾病阶段的重要作用,而不同的关联则提供了有关蛋白质在疾病发生机制中功能的进一步见解。
Para_03
  1. 在敏感性分析中,当限制对照组并进一步调整每种常见和新发疾病终点的共病状态时(STAR 方法),80.5% 的蛋白质常见疾病关联和 74.9% 的蛋白质新发疾病关联仍然显著(经过 Bonferroni 校正后,p 值小于 1.71 × 10^-5,对应 2,920 种蛋白质)。
  2. 此外,在调整年龄平方、年龄与性别交互作用、年龄平方与性别交互作用以及前 10 个遗传主成分后,蛋白质与疾病关联的变化很小,其中 99.9% 的蛋白质常见疾病关联和 75.8% 的蛋白质新发疾病关联仍然显著。
  3. 我们通过性别和年龄(中年人:<60 岁;老年人:≥60 岁)进行了亚组分析。
  4. 超过一半的关联仍然显著,并且与主要分析的方向一致。
  5. 同时,揭示了性别特异性关联,分别在蛋白质新发疾病关联和蛋白质常见疾病关联中发现了 37,979 和 22,911 个关联(图 1G)。
  6. 大多数关联在各亚组中的方向保持一致,只有 18 个关联在亚组中的效应方向存在差异(图 1H)。

Atlas of protein-trait associations

蛋白质性状关联图谱

Para_01
  1. 我们接下来调查了蛋白质与986种健康相关特征之间的关联。
  2. 经过Bonferroni校正(p < 1.71 × 10^-8)后,我们确定了涉及2707种蛋白质和782种特征的554488个显著的蛋白质-特征关联(图2A)。
  3. 蛋白质-特征关联分析中的发现可能进一步支持已识别的蛋白质-疾病关联。
  4. 例如,我们发现GDF15和CDCP1与认知功能特征表现出最显著的关联。
  5. 值得注意的是,GDF15(β[95%CI] = 14.464 [12.423-16.506],p = 9.32 × 10^-44)和CDCP1(β[95%CI] = 7.997 [6.248-9.745],p = 3.29 × 10^-19)都是反应时间的风险蛋白,提供了它们与神经精神障碍之间正相关性的额外证据,这在蛋白质-疾病关联分析中已被观察到。
  6. 在调整更多协变量的敏感性分析中,最初识别出的关联中有99.3%仍然显著(STAR方法)。
  • 图2。蛋白质-性状关联分析结果总结以及疾病和性状之间的多效性(A)按性状类别着色的蛋白质-性状关联。仅绘制显著关联(n = 554,488)。实心点表示正向关联(β > 0),而空心点表示负向关联(β < 0)。(B 和 C)在性别人群亚组分析中共享和特定显著关联的比例。(C)ALT和新发2型糖尿病之间的共享蛋白质。在ALT和2型糖尿病中p值或效应量排名前十的蛋白质被标记。ALT,丙氨酸转氨酶;T2D,2型糖尿病。(D)尿酸和痛风之间以及(E)肌酐和慢性肾病之间的共享蛋白质。显示的蛋白质是在性状和疾病中p值和效应量排名前30的蛋白质。(F)认知功能性状和新发痴呆症亚型之间的共享蛋白质。显示的蛋白质是至少与一种疾病和一种性状显著相关的蛋白质。(G)心理健康性状和新发精神障碍之间的共享蛋白质。仅显示与超过五种疾病或性状相关的蛋白质。颜色的深浅代表p值的大小。
Para_01
  1. 在亚组分析中,超过70%的蛋白质性状关联仍然显著。
  2. 与认知功能和心理健康相关性状的蛋白质关联表现出更高的亚组特异性(图2B和2C)。
  3. 各亚组间共享关联的方向总体上是一致的,但有235种蛋白质根据性别显示了不同的效应方向,164种蛋白质则根据年龄显示了不同的效应方向(数据S1)。
  4. 例如,参与社会行为和健康的神经肽OXT,在女性中对睾酮水平显示出正向影响(β[95% CI] = 0.136 [0.104-0.169],p = 2.72 × 10−16),而在男性中则显示出负向影响(β[95% CI] = −0.204 [−0.240 到 −0.167],p = 8.06 × 10−28)。

The landscape of pleiotropy in protein-phenotype associations

蛋白质与表型关联中的多效性景观

Para_01
  1. 考虑到绝大多数蛋白质表现出多表型关联,我们随后关注了具有作为潜在临床靶点潜力的多效性蛋白。
  2. 有434种蛋白质(26.3% = 434/1,648)与超过50种常见疾病相关联,而649种蛋白质(32.2% = 649/2,013)与超过50种新发疾病相关联,这些疾病包括那些具有多种生物功能的研究较为透彻的蛋白质,如GDF15、WFDC2和肿瘤坏死因子(TNF)家族(数据S1)。
  3. GDF15与最多数量的疾病有关,包含205种常见疾病和397种新发疾病,通常起风险因素作用,但有三种新发疾病除外(影响间质的呼吸系统疾病、镁代谢紊乱以及外周动脉疾病)。
  4. TNF家族主要涉及炎症和细胞分化,在各种疾病中表现出显著的多效性。
  5. 例如,该家族中的III型跨膜蛋白EDA2R与新发循环系统疾病(n = 54)相关联,其次是肌肉骨骼系统疾病(n = 43)、消化系统疾病(n = 35)和内分泌系统疾病(n = 35)。
  6. 此外,这种蛋白质还与传染病密切相关,对于隐性败血症的p值高达6.92 × 10−266。
Para_02
  1. 在蛋白质性状关联中,365种蛋白质表现出超过300个显著关联。
  2. 值得注意的是,GDF15与蛋白质-疾病多效性的高排名相似,其在蛋白质性状关联中排名第二,拥有相当可观的428个关联。
  3. 它最重要的关联大多与核磁共振代谢组学有关,尤其是脂质代谢物。
  4. 我们的观察结果与现有文献一致,这些文献报道了GDF15影响食欲、食物摄入和胃排空的潜在机制,并随后影响脂质代谢。
  5. 这些结果表明,GDF15在涉及循环系统、内分泌系统和代谢疾病的脂质相关结果的发病机制中发挥着广泛的作用。
Para_03
  1. 我们随后调查了特定蛋白质是否同时影响某些疾病和与疾病相关的特征,重点关注包括代谢疾病和NMR代谢组学、痴呆症和认知功能、以及精神疾病和心理健康在内的三个章节。
  2. 我们发现了一些特定蛋白质,它们表现出对疾病的保护作用以及对特征的有利影响。
  3. 例如,IGFBP2与较低的丙氨酸氨基转移酶(ALT)水平相关(β[95% CI] = -3.746[-3.909 至 -3.583],p < 1 × 10^-300),并且T2D的风险较低(HR[95% CI] = 0.621[0.593-0.650],p = 1.69 × 10^-93)(图2D)。
  4. IGFBP2是已知的胰岛素敏感性生物标志物35,并在一个纵向队列中被确认为T2D的保护性蛋白36,37。
  5. 鉴于ALT水平升高已被遗传学证据关联到T2D风险增加38,39,我们观察到IGFBP2对ALT的有利影响可能进一步巩固其在T2D中的保护作用。
  6. 还发现了其他代谢物及相关疾病之间存在重叠的蛋白质,包括尿酸和痛风,以及肌酸和慢性肾病(图2E和2F)。
  7. 流体智力评分和各种类型的痴呆症共享显著的蛋白质,如NEFL和GDF15(图2G),进一步支持了这些蛋白质与认知功能之间的密切关系。
  8. 焦虑障碍、抑郁症和情绪障碍等精神障碍以及与心理健康相关的特征也显示出显著的蛋白质相似性,包括TNFRSF10A、GDF15、IGFBP4、WFDC2和其他蛋白质(图2H)。
  9. 值得注意的是,IGFBP4被鉴定为情绪障碍的血液生物标志物40,这证实了我们的发现。

Biological function of the disease-associated proteins

与疾病相关的蛋白质的生物学功能

Para_01
  1. 为了更好地理解所识别的蛋白质如何参与人类疾病,我们进行了一系列功能富集分析。
  2. 在660种新发疾病中,有539种在至少一条Reactome通路中显示出显著富集,每种疾病的特定富集通路可以在我们的网站上找到。
  3. 与免疫系统相关的通路在人类疾病中大多被富集,尤其是在感染和寄生虫病以及血液和造血器官、循环系统和呼吸系统的疾病中(图3A)。
  4. 具体而言,肿瘤坏死因子与其生理受体的结合是最常见的与免疫系统相关的通路,在涉及多个系统(神经系统除外)的疾病中参与了一半以上的疾病。
  5. 这与我们在蛋白质常见疾病和蛋白质新发疾病关联中发现的肿瘤坏死因子家族成员蛋白的广泛多效性一致,强调了炎症在人类健康中的重要作用。
  6. 与蛋白质代谢相关的通路,包括翻译后磷酸化和胰岛素样生长因子调节,也在相当比例的疾病中被富集。
  • 图3。疾病相关蛋白的生物学功能(A)按事件疾病的章节分类的Reactome通路富集分析结果,根据每个章节中排名前十的项目的频率进行颜色编码。(B)阿尔茨海默病和血管性痴呆相关的蛋白质在基因本体(GO)生物过程(BP)富集中的比较结果。所有这些结果均满足错误发现率(FDR)<0.05的阈值。显示了共享(上)和特异性(下)通路。
  • 这些结果均满足错误发现率(FDR)<0.05的阈值。显示了共享(上)和特异性(下)通路。
Para_01
  1. 比较不同疾病之间的生物通路精炼了我们对疾病病理生理学相似性和异质性的理解。
  2. 例如,我们发现与阿尔茨海默病(AD)和血管性痴呆(VaD)相关的蛋白质富集在与神经系统相关的共享通路中,这些通路包括突触成熟、神经元投射再生、中间丝组织、施万细胞增殖的正向调节以及轴突直径的调节(图3B)。
  3. 同时,AD特异性通路主要与脂质代谢相关,包括调节血脑屏障跨膜脂质运输和中间密度脂蛋白颗粒清除。
  4. 而VaD特异性通路则与心肌相关,包括腺苷酸环化酶激活的肾上腺素受体信号通路和心肌松弛的正向调节。
  5. 此外,VaD特异性通路还包括心肌的正向调节。

Disease clusters with characteristic biological features

具有特征性生物学特征的疾病集群

Para_01
  1. 我们基于蛋白质-疾病关联的强度(即HRs)进行了层次聚类,并将660种疾病分成了40个簇(表S6)。如预期的那样,相似的疾病被分组并表现出特征性的生物学特性(图4A)。例如,簇1包括肝纤维化和肝硬化及其并发症,如门脉高压和食管静脉曲张(图4B)。这些疾病主要富集在小蛋白移除引起的蛋白质修饰、酒精代谢以及涉及神经系统和细胞形态发生的通路中,提示了潜在的机制包括去泛素化、41酒精摄入以及上皮间质转化43及其对神经系统的影响44。簇39,由非霍奇金淋巴瘤的亚型组成,其特征是包括B细胞激活在内的通路(图4C)。簇32,主要包含糖尿病引起的神经并发症(表S6),对涉及神经系统的通路产生了显著影响(数据S1)。
  • 图4。40个疾病簇的特征生物学特征和选定示例(A)将660种疾病分类为40个簇的蛋白质组学分类。热图显示了基因集富集分析检测到的疾病簇中的GO BP基因集的富集情况。热图的颜色表示该簇中疾病途径评分的平均值。星号∗表示一个簇与其他簇之间不同调节的途径(FDR < 0.01)。(B-D)示例展示了簇1、39和30的疾病组成、多病共存情况、该簇中与多病共存相关的蛋白质以及(A)中该簇特有的特定途径。左上角的文字记录了该簇中包含的具体疾病。火山图显示了通过序贯回归检测到的与多病共存相关的蛋白质,以该簇中疾病的发病率作为结果。应用了Bonferroni校正(0.05/ [2,920种蛋白质∗40个簇])。圆形图显示了随访期间具有不同数量并发疾病的个体比例,反映了该簇中疾病多病共存的情况。条形图显示了该簇与其他簇之间显著不同的途径,这些途径来自(A)。另见表S6和S7。
Para_01
  1. 集群 10、11 和 12 与其他集群不同,因为大多数通路被下调,特别是在细胞周期、细胞成分组织、代谢过程、定位、信号传导和自噬方面。
  2. 这些通路与这些集群中的疾病相关,如神经退行性疾病、45,46,47 主动脉瘤、48 和肥胖症。49,50
  3. 引人注目的是,集群 11 包括乳腺原位癌和其他在女性中常见的疾病,显示出下调的通路,这可能表明基因表达在不同疾病阶段被逆转,51 并且需要进一步研究来阐明机制。
Para_02
  1. 涉及免疫系统、细胞发育、刺激反应和细胞激活的途径在大多数集群中表现出一致的变化(图4A),这些途径可能在大多数疾病中被激活。尽管方向变化一致,但各集群之间的途径评分差异表明了集群特异性。
  2. 值得注意的是,图4A通过集群间比较强调了途径的重要性。某些途径如果在大多数疾病中保持一致,则不会被突出显示,即使它们可能在特定疾病中上调。
Para_03
  1. 有趣的是,60%的集群包含了多个疾病类别的疾病。
  2. 以集群30为例(图4D),它包括了血液和血液形成系统、神经系统、呼吸系统、肌肉骨骼系统和结缔组织的疾病。
  3. 其特征通路包括蛋白质运输、细胞周期过程、小GTP酶介导的信号转导、分解代谢过程、自噬和酰胺生物合成过程。
  4. 这为从生物特征重新理解疾病分类提供了初步的生物学见解。
Para_04
  1. 我们计算了每个集群的多病状态,即每个个体在每个集群中的新发疾病数量(STAR方法)。
  2. 然后应用序贯回归模型来研究与多病水平相关的蛋白质(表S7)。
  3. 对于36个集群中的每一个,超过一半与多病水平相关的蛋白质也在纵向分析中显著关联到集群内的至少一种疾病。
  4. 这反映了从人群角度来看集群内疾病的相似生物学特征,并强调了共享蛋白质的重要性。

Proteins contribute to disease diagnosis and prediction

蛋白质有助于疾病诊断和预测

Para_01
  1. 通过建模每个终点的疾病风险,我们调查了蛋白质、人口统计学特征及其整合(表S8和S9)的诊断和预测价值。
  2. 对于疾病预测,基于蛋白质的模型展示了良好的曲线下面积(AUCs),在13个疾病类别中的92种疾病(13.9% = 92/660)超过了0.80,其中大多数发现于内分泌和代谢疾病(n = 18/42)以及循环系统疾病(n = 17/65)(图5A)。
  3. 特别值得注意的是,基于蛋白质的模型对9种疾病的预测表现优异(AUC > 0.9),例如:2型糖尿病伴有周围循环并发症(AUC = 0.974 [0.963-0.982])、高血压肾病(AUC = 0.951 [0.934-0.967])、慢性肾炎综合征(AUC = 0.925 [0.899-0.946])、透析(AUC = 0.923 [0.894-0.950])和背景性糖尿病视网膜病变(AUC = 0.919 [0.905-0.933])(表S8)。
  4. 基于蛋白质的模型在预测361种特定疾病(54.7% = 361/660)时,显著优于基于人口统计学的模型。
  5. 特别是在预测糖尿病肾病、乳糜泻和甲状旁腺功能亢进时,基于蛋白质的模型(AUC:0.829~0.885)相对于基于人口统计学的模型(AUC:0.541~0.616)表现出显著优势,但与同时整合蛋白质和人口统计学特征的模型(AUC:0.829~0.887,pDelong检验>0.05)相比则相当。
  6. 此外,在预测便秘和膈疝等疾病时,基于蛋白质的模型明显优于基于人口统计学的模型(pDelong检验<1×10^-4),尽管AUC的提升(约0.02)相对较小。
  7. 此外,将血浆蛋白与人口统计学特征结合,显著提高了417种疾病(63.2%)的预测准确性,且pDelong检验<0.05,相较于基于人口统计学的模型(表S8)。
  • 图5. 蛋白质对疾病预测和诊断的贡献(A和B)基于三种模型:蛋白质、人口统计学和蛋白质加人口统计学,蛋白质在(A)预测和(B)诊断中的区分性能(以AUC量化)。误差线表示最小值到最大值范围,箱形图表示标准差,空心圆点表示平均值。任何AUC小于0.5的仅由蛋白质、仅由人口统计学或综合模型得出的疾病均未纳入图中,因为它们被认为没有信息价值。具体而言,分别有45种和24种疾病被排除在(A)预测和(B)诊断之外。AUC,曲线下面积。(C和D)按疾病章节分类的蛋白质角色堆积条形图,在(C)预测和(D)诊断疾病中,条形图上的数字代表该蛋白质的重要性在多少种疾病中排名首位。参见表S8和S9。
  • (A和B)基于三种模型:蛋白质、人口统计学和蛋白质加人口统计学,蛋白质在(A)预测和(B)诊断中的区分性能(以AUC量化)。
Para_01
  1. 对于疾病诊断,基于蛋白质的模型在14个疾病类别中的124种疾病(占30.5%,即124/406)展示了超过0.80的高AUC值,其中循环系统疾病(共37种中的26种)和内分泌及代谢疾病(共15种中的12种)在疾病诊断方面表现始终良好。
  2. 此外,基于蛋白质的模型在诊断36种疾病时达到了超过0.9的优秀AUC值,特别是在1型糖尿病(T1D)、糖尿病黄斑病变、慢性肾病、2型糖尿病(T2D)、高血压性肾病、心肌梗死和背景性糖尿病视网膜病变(AUC值:0.952~0.975)(图5B)。
  3. 这些结果突显了与基于人口统计学的模型相比,基于蛋白质的模型具有更优越的鉴别性能(基于人口统计学模型的AUC值:0.684~0.840,pDelong检验=8.94×10^-90~8.95×10^-15)(表S9)。
  4. 关于神经、神经根和神经丛疾病的诊断,以及泌尿生殖系统疾病和软组织疾病的诊断,基于蛋白质的模型显著优于基于人口统计学的模型(pDelong检验<1×10^-3),尽管AUC值的提高(约0.03)较为温和。
  5. 此外,基于蛋白质的模型在诊断218种特定疾病(占53.7%,即218/406)时优于基于人口统计学的模型(pDelong检验<0.05)。
  6. 通过将血浆蛋白整合到基于人口统计学的模型中,在253种疾病(占62.3%)的诊断准确性上观察到了显著提升(pDelong检验<0.05)(表S9)。
Para_02
  1. 对于预测和诊断,人口统计学在蛋白质组学之上的增值对于305种疾病(46.2% = 305/660)并不显著,对于另外185种疾病(45.6% = 185/406)也是如此,例如间质性肺病、乳糜泻和特发性肺纤维化。
  2. 这表明人口统计学中的大量区分信息可能与蛋白质组学数据共享。
  3. 此外,基于人口统计学和基于蛋白质的模型在一小部分疾病(<5%)中表现不佳(AUC < 0.5),这些疾病包括良性肿瘤以及感觉器官、皮肤和皮下组织的疾病(数据S1)。
Para_03
  1. 我们计算了血浆蛋白在预测和诊断疾病中的重要性(表S8和S9)。这促进了与每种情况相关的重点区分因子(前30名)的识别。
  2. 蛋白质GDF15因其在预测和诊断多种疾病中的关键作用引起了我们的注意。
  3. 具体来说,GDF15在被预测疾病的数量最多(n = 200)的情况下脱颖而出,成为排名最高(第1位)的预测蛋白。
  4. 紧随GDF15之后的是EDA2R、NTproBNP、COL9A1和NEFL,它们分别在21、19、15和14种疾病中占据首位(图5C)。
  5. 至于疾病诊断,GDF15同样在被诊断疾病的数量最多(n = 40)的情况下排名第一,其次是PAEP、CHGA、REN和COL9A1,它们分别在27、20、20和15种疾病中占据首位(图5D)。
  6. 此外,在前十名中排名最高的十种蛋白质中,有五种(即GDF15、WFDC2、NTproBNP、EDA2R和PAEP)在诊断和预测模型中重叠,突显了它们在诊断和预测疾病方面的良好区分性能。
  7. 有趣的是,在预测模型中排名前十的六种蛋白质(即GDF15、WFDC2、NTproBNP、NEFL、COL9A1和GFAP)也在蛋白质-发病疾病分析中排名前十,表明Cox模型和机器学习方法在识别疾病生物标志物方面具有一致性。

Potential causal proteins of diseases

疾病的潜在致病蛋白质

Para_01
  1. 利用UKB中的广泛遗传信息,我们调查了与常见和新发疾病相关的蛋白质是否在疾病过程中发挥了因果作用,或者只是疾病的后果,这有助于理解疾病的发生机制并建立潜在的药物靶点。
  2. 通过使用pQTL数据和疾病的全基因组关联研究(GWAS)汇总数据,对显著的蛋白-疾病关联进行了孟德尔随机化(MR)分析。
  3. 在顺式MR分析中,使用顺式pQTL作为"暴露因素",疾病GWAS作为"结果",178个蛋白-常见疾病对和185个蛋白-新发疾病对显示出潜在的因果关系,达到了FDR校正后的p值小于0.05(分别等于p < 1.63 × 10^-4 和 p < 9.55 × 10^-5)。
  4. 反式MR分析也识别出了198个和199个潜在的因果对,分别来自蛋白-常见疾病和蛋白-新发疾病关联。
  5. 在排除重复对和在反向MR中也有显著性的对之后,我们确定了474个独特的潜在因果蛋白-疾病对,其中七个蛋白质显示出了十个或更多的潜在因果对,包括SEMA3F(n = 15),SERPINF1(n = 14)和PCSK9(n = 12)(图6A)。
  • 图6。潜在因果和后果蛋白的总结(A) 按疾病章节着色的潜在因果蛋白堆积条形图。条形图上的数字代表与疾病的因果关联数量。(B-D) GDF15与自身免疫性疾病、(C) 蛋白质与高血压、以及(D) FURIN与心血管疾病的孟德尔随机化分析的显著结果,按疾病章节着色。(E) 可由某些疾病导致的蛋白堆积条形图,按疾病章节着色。(F-H) 疾病与(F) PLAUR、(G) EDA2R 和(H) GDF15的孟德尔随机化分析的显著结果。数据均表示为OR ± 95% CI。
  • Data are all represented as OR ± 95% CI.
Para_01
  1. 这些结果提供了已建立的蛋白质-疾病关联的因果证据,并发现了相关的遗传变异。
  2. 例如,具有多效性的蛋白质GDF15与包括溃疡性结肠炎和类风湿性关节炎在内的几种自身免疫性疾病存在因果关系(图6B)。
  3. 一个自身免疫多效性SNP,rs4728142,62,与较高的血浆GDF15水平呈反式关联,支持了GDF15可能参与自身免疫性疾病发病机制的假设,扩展了我们先前的流行病学证据。
  4. 此外,大多数(52.7% = 250/474)因果蛋白在循环系统疾病和内分泌及代谢疾病中被识别出来,其中高血压排在首位(n = 20)(图6C)。
  5. 蛋白质FURIN与高血压表现出最显著的关联(OR = 1.438,95% CI = [1.347–1.536],p = 1.57 × 10−27),其次是心绞痛、冠心病和缺血性心脏病(图6D),这与最近关于FURIN在心血管疾病中的作用的研究结果一致。
  6. MR分析的全部结果可在我们的网站上查看。
Para_02
  1. 除了通过调查潜在的因果关联来提供疾病发病机制的线索外,我们还确定了4,014个疾病-蛋白质对,其中蛋白质的变化可能是某些疾病的后果(图6E)。
  2. 发现较高的血浆PLAUR水平与六个系统中的18种疾病有关(图6F),其中七种是肝脏疾病,如肝纤维化和肝硬化。
  3. 在肝纤维化的进展过程中,PLAUR,尿激酶纤溶酶原激活物表面受体参与炎症反应、血管稳态和免疫调节,这一点也反映在我们的研究中血浆PLAUR水平与白细胞计数(β = 0.103,p < 1 × 10−300)和CRP(β = 0.073,p < 1 × 10−300)之间的显著关联。
  4. 有趣的是,我们发现EDA2R和GDF15可能也是包括肝硬化、慢性阻塞性肺病(COPD)和慢性肾病在内的疾病的后果(图6G和6H),这反映了某些器官的病理状况。

Drug target validation and repositioning

药物靶点验证和再定位

Para_01
  1. 鉴于血浆蛋白是药物靶点的主要来源,我们试图挖掘我们确认的与疾病相关的蛋白质,以寻找未来药物开发中有前景的靶点。
  2. 在1,648种常见的与疾病相关的蛋白质和2,013种新发的与疾病相关的蛋白质中,分别有1,029种(占62.4%)和1,124种(占55.8%)与Finan及其同事报道的可药物基因组重叠。
  3. 此外,编码这些与疾病相关蛋白质的基因集富集了可药物基因(常见疾病的比值比为1.74,新发疾病的比值比为1.32)。
  4. 在图7A中,我们展示了根据疾病类别分类的与疾病相关蛋白质的富集结果。
  5. 这些与疾病相关蛋白质和可药物基因之间存在相当大的重叠(特别是在第一层级中,包括批准的小分子和生物治疗药物的有效靶点以及临床阶段的药物候选物)。
  6. 这表明我们的发现有巨大的潜力转化为各种疾病的治疗机会。
  • 图7。药物靶点验证、再定位和识别(A)具有可成药基因组的蛋白质富集情况。数据均以Fisher精确检验中的OR±95%CI表示。
  • (B)顺式MR结果与DrugBank和治疗靶点数据库中靶标-适应症对信息的比较。左图是顺式MR鉴定的显著蛋白-常见疾病关联对,右图是蛋白-偶发疾病关联对。条形上的数字代表属于每个类别的验证、再利用和未建立的配对数量。未建立的配对是指没有已确立药物的蛋白质配对。左侧框中的内容是验证的蛋白-疾病配对及其靶向该蛋白的药物的一个例子,右侧框中的内容是再利用配对的一个例子。
  • (C)潜在靶标的安全性、因果关系和可成药性。框中列出了安全性=1的可成药蛋白-疾病配对示例,显示了五个因果关系最强的正负例子(由比值比指示)。参见表S10。
Para_01
  1. 先前的研究强调了利用遗传学进行药物开发和重新定位的机会。因此,我们进一步比较了那些从顺式孟德尔随机化分析中获得因果证据的蛋白质与疾病对,与两个药物数据库中的靶标-适应症配对,即DrugBank和治疗靶点数据库。在171个蛋白质常见疾病对和170个蛋白质新发疾病对中,分别有32%(54对)和22.4%(38对)拥有已批准或处于临床试验阶段的药物(图7B;表S10)。例如,数十种针对ACE的药物(如卡托普利、依那普利和福辛普利)已被批准用于治疗高血压。此外,我们还发现了25个已确立药物靶标中有37个重新定位机会,例如BSG用于治疗抑郁症。
Para_02
  1. 安全也是目标评估和药物开发的关键方面。
  2. 我们使用一个开放访问数据库(AD知识门户)来评估通过顺式MR分析优先化的123个潜在靶点的安全性。
  3. 十个靶点(如EPHA2)具有最低风险(有处于IV期试验的药物;安全等级为1)。
  4. 六个靶点(如MMP12)具有较低风险(从基因表达或遗传或药理学谱系中未发现主要问题,但它们尚未在人类中广泛测试;安全等级为2)。
  5. 二十六个靶点(如SEMA3F)具有潜在风险(具有两种或更少的高脱靶基因表达、癌症驱动因子、必需基因、相关的有害遗传疾病、人类表型本体[HP]表型相关基因或临床使用的药物上的黑框警告;安全等级为3)。
  6. 七十六个靶点(如BSG)具有可能的风险(具有超过两种高脱靶基因表达、癌症驱动因子、必需基因、相关的有害遗传疾病、HP表型相关基因或临床使用的药物上的黑框警告;安全等级为4)。
  7. 五个靶点(如F10)在人类中可能是不安全的(具有靶向不良反应和撤市药物;安全等级为5)(图7C;表S10)。
  8. 值得注意的是,我们的顺式MR发现优先化了26个未建立的潜在治疗靶点,具有有利的安全特性(安全等级≤3),可为未来的药物开发提供方向。

Interactive webtool enables in-depth exploration of proteome-phenome atlas

交互式网络工具实现了对蛋白质组-表型组图谱的深入探索

Para_01
  1. 为了便于深入探索本研究的详细结果,我们开发了一个交互式网络工具,可轻松访问所有汇总统计数据。
  2. 该网络工具分为四个独立的部分,涵盖了流行病学关联(蛋白质与疾病和特征之间的关联分析)、生物医学见解(富集分析)、诊断和预测(判别分析)以及基因组关联(MR分析)。
  3. 该网络工具为未来研究蛋白质在人类疾病发病机制、筛查、诊断和治疗中的作用提供了全面资源,可通过https://proteome-phenome-atlas.com/访问,遵循CCBY-NC-ND 4.0许可(仅限非商业使用)。
  4. 我们在数据S1中提供了选定示例,进一步突显了这一资源带来的科学机会。
  5. 特别是,我们发现(1)BSG可能参与导致抑郁症的上游机制,并且已有因果证据支持,现有的抗BSG抗体,称为美普拉珠单抗,可以促进及时执行基础实验来验证这一发现;以及(2)包括GDF15和EDA2R在内的蛋白质在诊断和预测综合人类疾病中的重要性。

Discussion

Para_01
  1. 蛋白质组学在分类和预测健康与疾病中的作用代表了一种有效且具有丰富生物学意义的资源,可用于实施精准医学。
  2. 现有的研究大多局限于单一疾病。
  3. 在这里,我们对53,026名个体的全面健康和疾病表型进行了最大规模的血浆蛋白质组学研究,揭示了总共168,100个蛋白-疾病关联和554,488个蛋白-特征关联。
  4. 至关重要的是,基于血浆蛋白的疾病诊断和预测模型在大约70%的疾病终点上展示了明显优于或可比于已建立的人口统计变量的性能。
  5. 此外,通过结合pQTL数据,我们确定了474个潜在的因果蛋白,这些蛋白与可药物基因组重叠,从而提供了有前景的治疗靶点以及现有药物的新应用。
  6. 我们的发现是公开可用的,我们希望这将有助于指导未来临床诊断、预测和干预策略的发展。
Para_02
  1. 以往的研究已经探讨了蛋白质的表型后果,但主要局限于规模较小的研究,集中在个别疾病和遗传关联上。
  2. 这项研究通过全面整合健康和疾病状况,并深入调查疾病区分性能、因果关系以及所识别蛋白质的治疗应用潜力而与众不同。
  3. 此外,传统的疾病分类策略通常依赖于相似的临床症状和表型特征,忽视了共同的分子病因。
  4. 通过基于蛋白质组学特征对疾病进行聚类,我们有助于重新审视疾病边界和亚型,通过锚定疾病在其共享生物学特性中的汇聚来实现这一点。
  5. 连接生物学相关的疾病可以帮助解释为什么看似不相关的症状会在患者身上同时发生,并进一步促进机制理解及有效疗法的发展。
Para_03
  1. 通过实施一种包含全面健康相关表型的分析方法,并统一评估它们与血浆蛋白水平的关联,我们识别出了表现出多重显著关联的蛋白质。
  2. 关键识别出的蛋白质包括具有广泛危害效应的如GDF15和具有保护效应的如EGFR。
  3. 这些发现通过锚定潜在共享的生物通路,为常见共病表现和疾病表型之间的重叠提供了机制上的解释。
  4. 更重要的是,这些蛋白质有可能成为全身健康状况的理想标志物以及多疾病通用的治疗靶点。
  5. 此外,我们证明了共享关联受到共病状态的最小混淆,在系统性纠正共病状态的敏感性分析中,限制共病参与者后,关联仍然保持显著。
  6. 此外,蛋白质效应的异质性值得进一步关注。
  7. 例如,我们显示蛋白质DSG2对现有和新发T2D的影响方向相反。
  8. 关于这些蛋白质的确切生物学机制知之甚少,而我们的研究结果表明它们在疾病发生过程中可能具有不同的作用。
Para_04
  1. 我们的深度‘组学’分析表明血浆蛋白质组学在多种疾病诊断和预测方面具有巨大的潜力。
  2. 在此我们强调蛋白质组学在实际应用中的潜力。
  3. 通过单一血液样本即可获得的血液蛋白质组学显示了其作为诊断辅助工具和改进多疾病风险评估的潜力。
  4. 即使有时只是适度的改善,增强的预测和诊断也可以导致更早的疾病检测、更好的患者分层以及更有效的个性化治疗方案,从而有助于更好的健康结果和更高效的医疗保健交付。
  5. 利用蛋白质组学分析作为单一领域且易于获取的检测方法不仅具有临床相关性,还进一步允许对人类疾病易感性的更全面的机制理解。
  6. 这不仅简化了诊断程序,还为积极的疾病预防和个人化干预开辟了有希望的途径。
Para_05
  1. 主要挑战之一是识别能够推动治疗靶点发现的致病蛋白。
  2. 为了实现这一目标,我们整合了蛋白质数量性状位点(pQTL)和疾病全基因组关联研究(GWAS)数据,进行了蛋白质组与表型组的孟德尔随机化分析,这提供了一种利用人群水平数据进行药物发现的数据驱动方法。
  3. 使用数千种蛋白质的pQTL作为遗传工具,我们评估了调节这些蛋白质水平对数百种疾病表型的潜在影响,并量化了因果关系证据的强度。
  4. 我们的顺式孟德尔随机化(cis-MR)发现,在两个药物数据库中的已建立的靶标-适应症配对中部分一致,例如ACE与高血压的关系,证实了遗传支持的靶标更有可能在药物开发中取得成功。
  5. 此外,未建立的靶标-疾病关联的发现表明了潜在的药物再利用机会。
  6. 例如,我们观察到抑郁与BSG蛋白之间存在关联,该蛋白已被用于治疗肝癌和移植物抗宿主疾病的临床试验。
  7. 此外,除了验证已知靶标的再利用潜力外,我们的研究还提供了识别有前景且安全的治疗靶点(如FCRLB、IFNLR1和SEPTIN8)的见解,这可能为未来的药物开发提供指导意义。
Para_06
  1. 我们的蛋白质组学图谱还有几个未来的发展方向。虽然我们已经揭示了详细的蛋白质-疾病和蛋白质-特征关联,但仍有必要在动物或人类中进行基础实验来探索蛋白质组学与疾病之间的具体联系机制。
  2. 这项研究代表了迄今为止最大的蛋白质组-表型研究之一。随着包含全面健康数据的人口生物库不断增加,我们希望验证我们的发现,例如EDA2R的多效性,从大规模前瞻性外部队列中,尤其是更加多样化的生物库。
  3. 与此同时,通过扩展蛋白质组覆盖范围以包括细胞和器官特异性剪接异构体和翻译后修饰,预计可以获得更多的生物学信息。
  4. 此外,由遗传证据支持的药物靶点,如用于抑郁症的BSG,具有较高的成功可能性,这可能构成药物发现项目的一个有吸引力的来源。
  5. 在未来监测患者的标记物可能有助于监控药物干预的效果,并指导个体化治疗。
  6. 最后,根据生物分子特征改革人类疾病的分类对于患者参与未来的临床试验以及实施精准医学至关重要。
Para_07
  1. 总的来说,我们的研究标志着在全面理解人类健康和疾病的血浆蛋白质组图谱方面取得了重大进展,并提供了具有临床应用价值的见解,以整合蛋白质组在疾病诊断、预测和治疗中的优势。
  2. 展望未来,研究界将从这个开放获取的蛋白质组图谱中受益,以促进对疾病发病机制的更深入理解,并推动生物标志物、预测模型和治疗靶点的有效开发。

Limitations of the study

研究的局限性

Para_08
  1. 本研究存在若干局限性应予以承认。首先,我们目前的研究结果依赖于血浆样本的蛋白质组学数据。尽管有超过2000种蛋白质通过分泌、细胞损伤或细胞死亡进入血液,这可以反映器官老化状态和不同器官的健康与疾病状态,但评估患病组织中蛋白质水平的作用可能更深入地揭示疾病的发病机制。进一步结合来自其他组织的大规模蛋白质组学数据将能够揭示组织富集或组织特异性蛋白质对相关疾病和特征的影响。
  2. 其次,共病可能会混淆蛋白质-疾病关联的结果。然而,在基于人群的研究中,共病很常见且往往难以消除,特别是在多疾病分析中。对每种疾病进行了严格的质量控制敏感性分析,表明大多数关联仍然显著,证明了当前分析方法的稳健性。
  3. 第三,我们使用没有蛋白质组学数据的UKB受试者对75种疾病进行了GWAS(FinnGen研究未提供这些疾病的汇总统计数据)。这些MR发现需要在未来的研究中通过其他来源的疾病GWAS进行验证。此外,由于常见的疾病信息可能是在基线蛋白质数据收集之前获得的,因此两样本MR分析中的因果效应应谨慎解释。
  4. 最后,本研究中包含的个体主要为白种欧洲人。UKB中其他种族样本量不足限制了将当前发现扩展到整个人群的能力,强调了在大规模非欧洲祖先队列中进行进一步蛋白质组学研究的必要性。

Resource availability

Lead contact

主要联系人

Para_01
  1. 进一步的信息和资源及试剂的需求应直接联系首席联络人 Jian-Feng Feng ([email protected]),并将得到满足。

Materials availability

材料可用性

Para_01
  1. 本研究没有产生新的独特试剂。

Data and code availability

数据和代码可用性

  • 所有蛋白质-疾病关联、蛋白质-特征关联、富集的生物通路、预测和诊断性能以及遗传关联的结果均已通过一个交互式门户(https://proteome-phenome-atlas.com/)发布,并且在发表日期起可供公众访问。UKB 数据在申请后可向合格的研究人员公开获取(http://www.ukbiobank.ac.uk/using-the-resource/)。本研究使用的主要数据是从 UKB(https://biobank.ndph.ox.ac.uk/)获取的,申请编号为 202239 和 19542。本研究还利用了其他公共资源,其 DOIs 列在关键资源表中。

  • 本研究中使用的所有软件和分析方法均公开可用,详见关键资源表。本研究的分析代码已上传至GitHub,详见关键资源表。

Acknowledgments

Para_01
  1. 我们要感谢Barbara J. Sahakian和Valerie Voon对稿件的批判性阅读和有益讨论。
  2. 本研究使用了UK Biobank资源,申请编号为202239和19542。
  3. 我们要感谢所有来自UK Biobank的参与者和研究人员。
  4. 我们要感谢FinnGen研究的参与者和调查员。
  5. 本研究中的计算是在复旦大学的‘面向未来的计算平台’(CFFF)上完成的。
  6. 同时,这里发表的结果部分基于从AD知识门户(https://adknowledgeportal.org,数据版本:syn13363442,v11)获得的数据,该平台最初由NIA资助的AMP-AD财团开发。
  7. 73,74
Para_02
  1. 这项研究得到了STI2030-重大项目(2022ZD0211600给J.-T.Y.)的支持。
  2. 国家自然科学基金(82071201、82271471和92249305给J.-T.Y.;82071997和82472055给W.C.;82402381和82471940给J.Y.)。
  3. 上海市科技重大专项(2023SHZDZX02给J.-T.Y.和2018SHZDZX01给J.-F.F.)。
  4. 华山医院启动基金(2022QD002给J.-T.Y.)。
  5. 复旦大学优秀人才培育计划(3030277001给J.-T.Y.)。
  6. 上海市学术研究带头人计划(23XD1420400给J.-T.Y.)。
  7. 111项目(B18015给J.-F.F.)。
  8. 洪堡研究奖(给J.-F.F.)。
  9. 国家重点研发计划(2023YFC3605400给W.C.)。
  10. 博士后创新人才支持计划(BX20230087给S.-D.C.,BX20230089给Y.-R.Z.,和BX20240073给Y.G.)。
  11. 上海市浦江人才计划(23PJD006给J.Y.)。
  12. 张江实验室,天桥及陈赛娟脑科学与类脑智能研究院,教育部神经生物学重点实验室及前沿研究中心,以及复旦大学脑科学转化研究院。
  13. 基金资助方对本研究的设计、数据收集和分析、发表决定或手稿准备均未发挥任何作用。

Author contributions

Para_01
  1. 所有作者均可以全面访问研究中的数据,并愿意承担责任将其提交出版。
  2. 概念化,由J.-T.Y.、W.C.、Y.M.和J.-F.F.完成;
  3. 方法学,由Y.-T.D.和J.Y.完成;
  4. 正式分析,由Y.-T.D.、J.Y.、Y.H.、Y.Z.、H.-Y.L.、Z.-W.L.和Y.-L.C.完成;
  5. 数据整理,由J.Y.、Z.-Y.L.和L.Y.完成;
  6. 撰写原始草稿,由Y.-T.D.、Y.Z.和X.-R.W.完成;
  7. 撰写审查与编辑,由Y.-T.D.、Y.G.、Y.-R.Z.、S.-D.C.、Y.-J.G.、Y.-Y.H.、L.-M.S.和Y.M.完成;
  8. 可视化,由Y.-T.D.、Y.Z.和J.-Y.C.完成;
  9. 监督,由J.-T.Y.、W.C.和J.-F.F.完成;
  10. 项目管理,由W.C.和J.-F.F.完成;
  11. 资金获取,由Y.G.、Y.-R.Z.、S.-D.C.、J.-T.Y.、J.Y.、W.C.和J.-F.F.完成。

Declaration of interests

Para_01
  1. 作者声明不存在竞争性利益。

STAR★Methods

Key resources table

关键资源表

Experimental model and study participant details

实验模型和研究参与者详情

Para_01
  1. 本研究评估的数据来自UKB,这是一个大约包含50万名40至69岁参与者的基于人群的队列。参与者于2006年至2010年期间在英国的22个招募中心注册。
  2. UK生物银行制药蛋白质组学项目(UKB-PPP)对UKB参与者中的随机子集进行了基于血液的蛋白质组学分析。
  3. 在这项研究中,缺失超过20%蛋白质组学数据的个体被排除在外,最终样本包括53,026名参与者,他们的中位随访时间为14.8年,截至2023年11月。
  4. 该研究遵循赫尔辛基宣言进行,所有研究参与者均提供了知情同意。
  5. 人口统计学特征详细列于表S1。

Method details

方法细节

Disease definition

疾病定义

Para_01
  1. UKB中的诊断数据与英国电子健康记录进行了关联,疾病根据国际疾病分类(ICD)-10代码(表S3和S4)进行确认和分类。
  2. 这些代码是从住院患者记录中提取的(类别2000,字段41270和41280)。
  3. 现有疾病和新发疾病分别定义为参与者基线访问日期之前和之后发生的事件,即采集血液样本和其他临床信息的时间。
  4. 新发疾病结果被处理为事件发生时间的数据。
  5. 对于新发疾病分析,患有该疾病已有病例的参与者将被排除。
  6. 参与者的随访期从他们首次就诊的日期开始,直到疾病诊断、死亡或住院患者记录中最晚可获得的日期(2023年11月)中的最早时间点为止,取三者中较早的时间。
Para_02
  1. 我们利用了 FinnGen 疾病终点代码(https://www.finngen.fi/),并严格遵守了 FinnGen 的质量控制(QC)指南。
  2. 这包括基于性别或年龄的预定义条件,以及针对特定疾病的排除控制。
  3. 详细的 QC 标准可以在表 S3 和 S4 中找到。
  4. 值得注意的是,由于 UKB 提供的 ICD-10 代码中只有一个小数位可用,一些最初用两位小数编码的疾病被四舍五入到了一位小数。
  5. 在我们对新发事件的分析中,基线前已诊断出该疾病的个体被排除在外,而对于现患事件,随访期间诊断出的个体也被同样排除。
  6. 对于每种疾病,对照组被定义为没有该疾病的其余参与者。
  7. 此外,我们排除了少于 100 例病例的终点,因此,研究人群中共有 660 个新发和 406 个现患疾病终点,这些个体具有蛋白质组学数据。

Health-related trait

健康相关特征

Para_01
  1. UKB 资源包括身体测量数据,如眼睛和身体成分测量、关于饮食、体育活动、生活方式、生活环境和健康状况的问卷数据,以及血液和尿液检测。
  2. 虽然这些数据不是基于住院记录的疾病终点,但它们与人类健康状况密切相关,通过反映疾病的发生和发展、成为疾病的危险因素等来体现。
  3. 为了处理这些表型特征,我们解析了在基线时收集的 UKB 特征数据,这些数据的代码主要来自 PEACOK(https://github.com/astrazeneca-cgr-publications/PEACOK)R 包,这是一个 PHESANT 包的更新版本。
  4. 最终,UKB 算法定义的变量被归类为三种数据类型之一:连续型、分类型和二元型。
  5. 每种类型的变量使用的参数在数据 S2 中提供。
Para_02
  1. 在与蛋白质数据参与者合并后,样本量小于10,000的变量被排除。
  2. 对于二元性状的研究,至少需要50个病例或对照。
  3. 总的来说,我们研究了453个连续性状、331个有序分类性状和202个二元性状。
  4. 为了允许更详细的章节分析,每个性状已被手动分配到其对应的二级或三级UKB路径。
  5. 每个性状的章节映射显示在表S5中。

Proteomics

蛋白质组学

Para_01
  1. UKB-PPP联盟进行了基于血液的蛋白质组学数据的生成。
  2. 血液样本收集在EDTA真空采血管中,并立即在4°C下以2500g离心10分钟以分离血浆。
  3. 血浆样本被保存在-80°C下,然后用干冰运输到瑞典的Olink分析服务。
  4. 随后,利用Olink Explore™邻近延伸测定和下一代测序技术对2,923种独特的蛋白质进行了定量。
  5. 实施了严格的质量控制(详细信息见biobank.ndph.ox.ac.uk/ukb/ukb/docs/PPP_Phase_1_QC_dataset_companion_doc.pdf)。
  6. 为了控制批次效应和技术变异性,提高测量低丰度蛋白质的准确性,采用了从原始蛋白质值转换而来的标准化蛋白质表达(NPX)值,遵循先前的做法88,89,90和Olink制造商的建议。
  7. 有关样本选择、处理和质量控制的进一步细节已在之前的出版物中提供。
  8. 在我们的研究中,我们排除了超过50%数据缺失的蛋白质后,包括了总共2,920种蛋白质。
  9. 本研究中包含的所有蛋白质列表可以在表S2中找到。

Covariates

协变量

Para_01
  1. 在这项研究中,协变量的选择基于(1)人口统计学变量,包括年龄、性别、种族(分类为白种人、亚洲人、黑种人以及混合和其他)、以及汤森剥夺指数(TDI);和(2)与血浆蛋白测量相关的潜在因素,包括采血时的禁食时间、样本采集季节(分类为夏秋和冬春)、样本年龄(从采样到蛋白质测量的时间)、身体质量指数(BMI)以及吸烟状态(分类为从不、从前和当前吸烟)。缺失的吸烟状态、种族、TDI、采血时的禁食时间和BMI的协变量值使用其中位数进行填补。
  2. The median values were employed to impute covariates with missing values in smoking status, ethnicity, TDI, time fasted at blood collection, and BMI.

Statistical analysis

统计分析

Para_01
  1. 本文档中使用的分析方法将在下一节中详细阐述。对应的代码可以在关键资源表中找到。
  2. ,

Quantification and statistical analysis

量化和统计分析

Associations of proteins with diseases

蛋白质与疾病的关联

Para_01
  1. 我们使用逻辑回归模型对常见疾病进行了横截面分析,并调整了上述列出的协变量。
  2. 逻辑回归模型是在Python环境(版本3.9.16)中使用statsmodels(版本0.13.1)执行的。
  3. 显著关联被定义为通过严格Bonferroni校正(p < 0.05/[2,920∗406])的那些关联。
  4. 对于新发疾病,我们应用了纵向研究设计,使用Cox比例风险模型来探讨基线血浆蛋白水平与新发疾病风险之间的关系。
  5. 新发疾病的纵向数据是指从基线到随访结束期间收集的疾病诊断数据,这些数据作为事件发生时间数据进行处理,如‘疾病定义’部分所述。
  6. 然后我们应用严格的Bonferroni校正(p < 0.05/[2,920∗660])来评估每个结果的显著关联。
  7. 显著关联的p值、优势比(OR)和风险比(HR)的方向在图1B和图1C中显示。
  8. 具体的p值、OR、HR、置信区间(CI)和样本量可以在我们的网站上找到。
  9. Cox比例风险模型是使用lifelines(版本0.27.4)提供的"CoxFitter"函数执行的,并在Python环境(版本3.9.16)中实现。

Associations of proteins with traits

蛋白质与性状的关联

Para_01
  1. 不同的回归模型根据健康相关特征的变量类型被利用。
  2. 线性回归模型被用于连续性特征的分析。
  3. 逻辑回归模型被用于二元特征。
  4. 比例优势逻辑回归模型被用于有序分类特征。
  5. 重要的是,所有回归模型都用上述协变量进行了调整。
  6. 我们使用多重检验校正阈值p < 1.71 × 10^-8(P<0.05/[2,920×大约1,000个特征])来定义显著关联。
  7. 显著关联以及相应的p值和β的方向在图2A中显示。
  8. 具体的p值、β、标准误和样本量可以在我们的网站上找到。
  9. 这些回归模型是由R包‘MASS’(v4.2.0)中的‘lm’、‘glm’和‘polr’函数执行的。

Sensitivity analysis

敏感性分析

Para_01
  1. 为了进一步调查合并症的影响,我们进行了敏感性分析,并遵循了严格的质量控制措施。
  2. 在横断面分析中,对于每一种常见疾病,被诊断为同一疾病类别的任何疾病的个体从对照组中移除,并且模型还调整了其他疾病类别基线多病共存情况。
  3. 在纵向分析中,对于每一种新发疾病,基线前被诊断为同一疾病类别的任何人从对照组中移除;此外,我们还排除了基线前患有同一疾病类别新发疾病的参与者;并且,在Cox模型中,还调整了其他疾病类别的基线多病共存情况。
  4. 调整后的多病共存情况定义为基于14种疾病类别的14个二元变量(表S3和S4),每个变量表示在基线前是否有一种疾病属于特定类别。
  5. 此外,为了增强稳健性和可靠性,我们进行了敏感性分析,该分析还调整了年龄平方、年龄乘以性别、年龄平方乘以性别以及前10个遗传主成分。
  6. 采用Bonferroni校正(p < 0.05/2,920)来定义显著关联。
  7. 完整的分析结果可以在我们的网站上查看。

Subgroup analysis

亚组分析

Para_01
  1. 此外,为了确定蛋白质与健康表型之间的关联是否在不同的个体特征中表现出变化,我们执行了按性别和年龄(中年:<60岁,老年:≥60岁)分层的亚组分析。相同的回归模型集用于亚组分析。
  2. 按性别分层的亚组分析通过包含所有上述协变量但不包括性别来实现,而按年龄分层的亚组分析则通过控制所有先前提到的协变量来完成。
  3. 我们应用了严格的Bonferroni校正(对于常见疾病,p < 0.05/[2,900∗406∗2];对于新发疾病,p < 0.05/[2,900∗660∗2];对于性状,p < 0.05/[2,900∗1000∗2])来评估每个表型的显著关联。
  4. 图1H展示了若干显著关联的ORs、HRs和CIs,而完整的包括样本量的结果可以在我们的网站上找到。

Pathway enrichment analysis

通路富集分析

Para_01
  1. 为了探索生物学见解,首先对常见疾病和新发疾病的与疾病相关的蛋白质进行了途径和富集分析。
  2. 对于每种疾病,进行了基因本体(GO)生物过程(BP)术语和Reactome途径的富集分析。
  3. 值得注意的是,对于没有显著蛋白质的疾病,我们使用P值最小的前30种蛋白质进行途径富集分析。
  4. ClusterProfiler R包(v4.10.0)用于基于GO数据库发现过度代表的生物过程。
  5. 然后,使用ReactomePA R包(v1.47.0)进行了Reactome途径富集分析。
  6. 图3A中的热图包含了每个疾病章节中排名前十的Reactome富集项目的频率。
  7. 具体路径及其对应的P值和折叠富集可以在我们的网站上找到。
  8. 由于在单一疾病中同时检查了多个路径,因此实施了Benjamini-Hochberg方法来考虑多重检验。
  9. 假发现率(FDR)< 0.05被确定为统计显著性阈值。

Clustering analysis

聚类分析

Para_01
  1. 分层聚类被用来根据所有分析的血浆蛋白的关联程度(来自Cox比例风险模型的风险比)对事件性疾病(n = 660)进行分组。
  2. 每种事件性疾病由风险比表示,并且使用这些疾病-蛋白质关联形成一个浓缩的距离矩阵(660 × 2,920)。
  3. 在分析之前,风险比已经进行了预标准化。
  4. 聚类过程中使用了Ward链接。
  5. 计算了树状图和热图,使疾病可以根据血浆蛋白关联谱聚集。
  6. 每种疾病的聚类可以在表S6中找到。
  7. 聚类分析是通过Python中的Scipy(v1.9.0)的"hierarchy"函数实现的。

Gene set enrichment analysis (GSEA)

基因集富集分析(GSEA)

Para_01
  1. 为了进一步揭示疾病群集的生物学特征,我们进行了GSEA来发现40个疾病群集中存在的途径变化。
  2. 为了确定每个个体疾病的归一化途径富集评分,我们首先根据在Cox模型中生成的Z值对蛋白质进行排序。
  3. 然后,将排序列表提交给使用R包clusterProfiler(版本4.10.0)和GO BP基因集(C5子类别,MSigDB数据库版本2023.2.Hs)的GSEA,其中至少有10个重叠基因。
  4. 在FDR调整后,保留了在任何疾病中显著的前10条途径。
  5. 为了进一步阐明疾病群集的生物学特征,我们进行了Wilcoxon秩和检验,以识别一个群集与其他群集之间不同调节的途径。
  6. 具体而言,我们将一个群集中疾病的途径富集评分与所有其他群集的评分进行了比较。
  7. 每个群集的前五条途径如图4A所示,热图包含每个群集中归一化途径富集评分的平均值。
  8. P值使用Benjamini-Hochberg方法进行了调整。

Ordinal regression models

序数回归模型

Para_01
  1. 为了确定人群中每个疾病簇的多重病症水平,我们将每个人的新发疾病数量相加为序数变量。
  2. 图4B至4D提供了三个示例疾病簇的多重病症水平。
  3. 然后,我们使用序数回归模型来研究与每个簇中的多重病症相关的蛋白质。
  4. 这些模型调整了年龄、性别、种族、TDI、吸烟状况、BMI、空腹时间、季节和样本年龄等因素。
  5. 基线时患有簇中任何特定疾病的参与者以及协变量缺失值的参与者被排除在这类分析之外。
  6. 应用了Bonferroni校正(0.05/[2,920种蛋白质∗40个簇])。
  7. 序数回归的结果记录在表S7中。

Prediction and diagnostic modelling

预测和诊断建模

Para_01
  1. 为了每种疾病,使用了一种名为轻量梯度提升机(LightGBM)的机器学习算法开发了两种模型,一种是预测模型,另一种是诊断模型。
  2. 具体来说,预测模型(疾病数量=660)旨在确定一个基线健康参与者是否会患上某种疾病(预测为1类)或保持健康(预测为0类),并且排除了那些已有的该疾病的诊断个体。
  3. 至于诊断模型(疾病数量=406),其目的是区分参与者是否经历过或正在经历某种疾病(预测为1类)与那些没有经历过这种疾病的人(预测为0类)。
  4. 这些模型是基于前30个重要蛋白质建立的(约所有2,920种蛋白质的1%左右),这些蛋白质的重要性是根据LightGBM内置的信息增益算法确定的,该算法衡量了特定蛋白质对模型的影响程度。
  5. 我们通过信息增益算法计算了蛋白质的重要性,该算法是LightGBM的一部分,用于衡量特定蛋白质对模型的影响程度。
Para_02
  1. 为了比较的目的,我们利用参与者的基础临床和人口统计信息建立了模型,即年龄、性别、种族、TDI、BMI、收缩压以及吸烟和饮酒状况。
  2. 此外,通过结合蛋白质和临床-人口统计数据,我们建立了一个综合模型。
  3. 然后,我们比较了基于蛋白质的模型与基于人口统计的模型之间的鉴别性能。
  4. 另外,我们还通过比较基于人口统计的模型与综合模型来探讨蛋白质的附加价值。
  5. 我们通过DeLong检验来检验其显著性。
Para_03
  1. 模型通过嵌套留一地区外交叉验证策略进行训练和优化。
  2. 具体来说,根据参与者招募中心的地理位置将数据分为10个折。
  3. 地理位置包括东米德兰兹、伦敦、东北部、西北部、苏格兰、东南部、西南部、威尔士、西米德兰兹和约克郡及亨伯。
  4. 每次操作时,使用九个折的数据(训练集)来开发模型,包括蛋白质选择、超参数调整和模型训练,其余的一个折则作为测试集。
  5. 经过10次迭代后,所有折的数据都被用作测试集,并且它们被汇总用于评估。
  6. 应用了带有放回的自助抽样方法,迭代了1000次,以报告曲线下面积(AUC)、准确率、灵敏度、特异性、精确度、Youden指数和F1分数的中位数和95%置信区间。
  7. 最佳超参数在训练集中进行调优,并且通过网格搜索在包含100个候选组合的超参数空间内使用随机划分的五折交叉验证来执行。
  8. 值得注意的是,测试集保持未触碰状态,仅用于评估。
  9. 每种疾病的AUCs、前30个重要蛋白质以及DeLong检验的P值如图5和表S8、S9所示。
  10. 模型开发和评估是通过Python(v3.9.16)下的lightgbm(v3.3.2)和scikit-learn(v1.0.2)实现的。

Mendelian randomization (MR)

孟德尔随机化(MR)

Instrumental selection
Para_01
  1. 用于代理改变蛋白质丰度的工具是与顺式(在转录起始位点1Mb范围内)和反式分别相关的变异体,在全基因组显著性水平(p < 5 × 10^-8)下从蛋白质全基因组关联研究(GWAS)汇总统计数据中提取。
  2. 用于代理疾病发生率的工具是从疾病GWAS汇总统计数据中提取的p < 5 × 10^-8的变异体。
  3. 大多数疾病GWAS来自FinnGen研究发布DF9(https://www.finngen.fi/en/access_results)。
  4. 其余的疾病GWAS(FinnGen研究未提供汇总统计数据)使用广义线性混合模型(GLMM)和全基因组复杂性状分析(GCTA,版本1.94.0)在没有蛋白质数据的英国白人参与者子集中计算得出。
  5. 使用欧洲千人基因组计划第三阶段作为参考面板进行了连锁不平衡聚类(r^2 < 0.01)。
  6. 我们去除了与超过五种蛋白质相关的工具,以最小化多效性效应,并且去除了F统计量小于10的工具,以减少弱工具偏差。
Mendelian randomization
Para_01
  1. 为了探索在流行病学分析中确定的重要蛋白质-疾病关联,我们使用双向两样本孟德尔随机化分析方法进一步研究了蛋白质和疾病的基因组关联,该分析方法使用蛋白质和疾病的工具变量。
  2. 如果只有一个工具可用,则使用Wald比率来估计孟德尔随机化效应;如果两个或更多工具可用,则使用逆方差加权(IVW)方法。
  3. 我们定义了蛋白质和疾病之间的两种关系,详见结果部分。
  4. 首先,一种蛋白质与一种疾病存在因果关系,这由蛋白质到疾病方向上发现的显著关联(通过错误发现率FDR < 0.05定义)以及疾病到蛋白质方向上显示的不显著关联所证明。
  5. 其次,蛋白质的血浆水平改变是疾病的结果,这由疾病到蛋白质方向上的显著关联而蛋白质到疾病方向上的不显著关联所证明。
  6. 在图6B至6D中,我们报告了潜在因果关联的例子及其比值比(ORs)和95%置信区间(CIs)。
  7. 在图6F至6H中,我们展示了蛋白质水平变化可能是由于疾病发生所导致的例子。
  8. 所有检查过的关联的结果报告在我们的网站上。
  9. 我们使用"TwoSampleMR"R包进行孟德尔随机化分析(R版本4.2.0)。

Enrichment of proteins with druggable genome

具有可药物基因组的蛋白质富集

Para_01
  1. 此前,Finan等人构建了一个更新的可药物基因组综合目录,用于验证药物靶点并准确匹配疾病适应症,该目录涵盖了4,479个基因。
  2. 这项研究根据药物开发管道将可药物基因集分为三个等级。
  3. 1,427个与临床阶段药物候选物、批准的生物治疗剂和小分子药物的有效靶点相对应的基因位于一级。
  4. 682个与类药化合物的靶点以及与已知药物靶点密切相关的基因位于二级。
  5. 2,370个与上述两个等级未纳入的可药物基因以及与批准的药物靶点相似度较低的细胞外或分泌蛋白位于三级。
  6. 我们分别评估了通过Cox回归模型和逻辑回归模型筛选的蛋白质是否与可药物基因组基因(4,479个基因)重叠。
  7. 富集分析采用了Fisher精确检验,相关计算使用R v.4.3.1版本进行。
  8. 图7A显示了与可药物基因组重叠的疾病相关蛋白数量以及富集分析的比值比和95%置信区间。

Drug target validation and repositioning

药物靶点验证和再定位

Para_01
  1. 利用GREP(基因组重新定位药物)软件,我们对通过顺式孟德尔随机化方法优先排序的蛋白质在临床适应症的药物靶点中进行了富集分析,并捕捉到可能重新定位的药物。
  2. 批准的药物靶点或临床试验靶点的信息是从两个公开可访问且定期更新的数据库收集的,分别是DrugBank:https://www.drugbank.ca/ 和治疗靶点数据库:https://db.idrblab.net/ttd/。
  3. 经过验证的、重新定位的和未建立的蛋白-疾病对列于表S10中,计数如图7B所示。

Safety assessment

安全评估

Para_01
  1. 现在,一个AD知识门户结果浏览器(https://agora.adknowledgeportal.org/)被用来进行蛋白质靶点的安全评估。
  2. 靶点根据治疗性抗体可行性、安全性和小分子药物开发偏好被归类到不同的桶中,靶点的安全性被分为六个级别(1:最低风险,2:较低风险,3:潜在风险,4:很可能的风险,5:在人类中可能不安全,6:未知)。
  3. 较小的桶编号通常被认为对成功的药物开发更有利。
  4. 通过cis-MR分析确定的123个潜在靶点的安全等级可以在表S10中找到。

Additional resources

额外资源

Para_01
  1. 我们开发了一个交互式网络工具,以便有效访问结果(https://proteome-phenome-atlas.com/),这在结果部分"交互式网络工具使蛋白质组-表型组图谱的深入探索成为可能"中有描述。

Supplemental information

Para_01
  1. 下载:下载电子表格(11KB)表S1。与STAR方法相关的研究队列的人口统计特征。
  2. 下载:下载电子表格(152KB)表S2。与STAR方法相关的血浆蛋白信息。
  3. 下载:下载电子表格(44KB)表S3。与STAR方法相关的常见疾病的特点和定义。
  4. 下载:下载电子表格(63KB)表S4。与STAR方法相关的新发疾病的特点和定义。
  5. 下载:下载电子表格(70KB)表S5。与STAR方法相关的健康相关特征的特点。
  6. 下载:下载电子表格(47KB)表S6。与图4相关的聚类分析结果。
  7. 下载:下载电子表格(1MB)表S7。蛋白质与集群多病水平之间的关联,与图4相关。
  8. 下载:下载电子表格(229KB)表S8。蛋白质模型、人口统计模型和综合模型在疾病预测中的表现,与图5相关。
  9. 下载:下载电子表格(147KB)表S9。蛋白质模型、人口统计模型和综合模型在疾病诊断中的表现,与图5相关。
  10. 下载:下载电子表格(26KB)表S10。通过顺式MR分析识别的蛋白质-疾病对与通过GREP识别的目标-适应症对之间的重叠,与图7相关。GREP中确定的已建立药物靶点用粗体突出显示。
  11. 下载:下载Acrobat PDF文件(1MB)数据S1。与图1、2、4、5和7相关的扩展支持信息。
  12. 下载:下载Acrobat PDF文件(192KB)数据S2。与STAR方法相关的扩展支持信息。