专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
生信人  ·  不用太卷,微生物也可以大力出奇迹 ·  3 天前  
生信人  ·  24年研究肿瘤必看的十大高分热点综述 ·  3 天前  
51好读  ›  专栏  ›  生信菜鸟团

硕博赶紧用起来!Cell53,026人蛋白质-表型资源库

生信菜鸟团  · 公众号  · 生物  · 2025-01-16 14:51

正文

image

前言

  • 2025 年的第一期 cell 上发表了一篇《健康与疾病中 53,026 名成人的血浆蛋白质组图谱》,这篇文章包含了大量的资源,这边进行了相关探索。
  • 文章主要是通过申请到的 UK Biobank 数据进行的数据分析,然后给出数据分析的结果。
  • 如果想要详细了解文章内容,请看今天其他推文《Cell | 健康与疾病中 53,026 名成人的血浆蛋白质组图谱 | 提供分析结果和源代码》,推文对该文章原文进行了逐字逐句的中文精读。

文章亮点

  1. 构建涵盖1706种人类疾病和特征的全面蛋白质组学图谱
  2. 基于机器学习的大数据分析揭示有前景的诊断和预测生物标志物
  3. 识别出37种药物重新定位前景和26个潜在的安全靶点
  4. 提供一个开放获取的蛋白质组-表型组资源以推进精准医学

文章摘要

  1. 大规模蛋白质组学研究可以深化我们对健康和疾病的了解,并促进精准医学的发展。
  2. 在这里,我们提供了英国生物银行(UK Biobank)中53,026名个体(中位随访时间:14.8年)的详细血浆蛋白图谱,该图谱链接了406种常见疾病和660种新发疾病以及986种与健康相关的特征,代表了迄今为止最全面的蛋白质组谱。
  3. 这一图谱揭示了168,100个蛋白质-疾病关联和554,488个蛋白质-特征关联。
  4. 超过650种蛋白质在至少50种疾病中共存,超过1,000种蛋白质显示了性别和年龄上的异质性。
  5. 此外,蛋白质在疾病鉴别方面表现出巨大的潜力(183种疾病中的曲线下面积[AUC] > 0.80)。
  6. 最后,整合蛋白质数量性状位点数据确定了474种因果蛋白质,提供了37种药物再利用机会和26种具有有利安全性的潜在靶标。
  7. 这些结果提供了一个开放获取的综合蛋白质组-表型资源(https://proteome-phenome-atlas.com/),有助于阐明疾病的生物学机制,并加速疾病生物标志物、预测模型和治疗靶标的开发。

蛋白质组-表型资源探索

网址

  • https://proteome-phenome-atlas.com/
网站主页截图
  • 网站布局简单,四大板块清晰明了
  • 指引清晰,操作简单
  • 分为流行病学关联,生物医学洞见,预测诊断,基因组关联
  • 截止今天,已有 35000+ 浏览量

流行病学关联

从疾病的角度查看分析结果
  • 血浆蛋白与疾病终点之间的关联分别使用 Cox 比例风险回归和逻辑回归进行,分别针对新发疾病和常见疾病。
  • 血浆蛋白与健康相关特征之间的关联分析,采用线性回归对连续特征(作为结果)和二元特征(作为暴露因素),以及比例优势逻辑回归对有序分类特征。
image
  • 假如想要看阿尔兹海默症的分析结果,操作如下:
依据需求选择相关参数
部分结果
  • 可以看到, 424 种蛋白质在 0.05 的显著性水平下表现出关联。253 个蛋白质呈正相关,171 个呈负相关。可以从这些数据里面找分子进行研究,或者给自己的分子添加强有力的临床相关数据。
  • 完整结果可以在底部进行下载
从蛋白质的角度查看分析结果
  • 血浆蛋白与疾病终点之间的关联分别使用 Cox 比例风险回归和逻辑回归进行,分别针对新发疾病和常见疾病。
  • 血浆蛋白与健康相关特征之间的关联分析,采用线性回归对连续特征(作为结果)和二元特征(作为暴露因素),以及比例优势逻辑回归对有序分类特征。
image
  • 同样的,我们可以从蛋白质的角度,查看研究的目标蛋白质跟数据库中的哪些疾病关联。

生物洞见

  • 这部分对疾病相关蛋白进行了通路和富集分析(对于新发疾病,P < 0.05/(2920*660);对于常见疾病,P < 0.05/(2920*406))。对每种疾病,都进行了基因本体(GO)术语、Reactome 通路和组织类型的富集分析。
image
image

预测诊断

  • 建立了两个模型,一个预测模型和一个诊断模型;
  • 使用了与疾病相关的蛋白(对于新发终点事件,P < 0.05/(2920*406);对于常见终点事件,P < 0.05/(2920*660))。
  • 预测模型(疾病数量=660)旨在确定一个基线健康参与者是否会患上某种疾病(预测为类别 1)或保持健康(预测为类别 0),并且排除了那些已经对该疾病有常见诊断的个人。
  • 诊断模型(疾病数量=406),它旨在区分一个参与者是否经历过或目前正在经历某种疾病(预测为类别 1)与那些没有经历过的人(预测为类别 0)。
image

基因组关联

从疾病的角度查看分析结果
  • 基因组关联分析通过孟德尔随机化(MR)分析进行,使用蛋白质-疾病分析中确定的显著蛋白质-疾病对(对于新发疾病,P < 0.05/(2920*406);对于常见疾病,P < 0.05/(2920*660))。
  • 蛋白质到疾病的 MR 分析将蛋白质数量性状位点(pQTL)数据作为暴露因素,将疾病 GWAS 数据作为结果,而对于疾病到蛋白质的分析,暴露因素和结果则相反。
  • 大多数疾病 GWAS 来自 FinnGen 研究 [2] 发布 DF9,其余疾病 GWAS 是在没有蛋白质数据的 UKB 参与者子集中计算的。
  • 为了选择工具变量(IV),对具有全基因组显著性的 SNPs(P < 5×10^−8)进行了连锁不平衡(LD)聚类。如果只有一个 IV 可用,则使用 Wald 比率来估计 MR 效应;
  • 如果有两个或更多 IV 可用,则使用逆方差加权方法。MR 分析使用 R 中的“TwoSampleMR”包(v.4.2.0)进行。
image
从蛋白质的角度查看分析结果
  • 同上

代码

  • 提供了完整的分析代码
image
github
  • https://github.com/jasonHKU0907/proteome-phenome-atlas

数据

  • 文章的大部分数据是向 UKB 申请得到的,看了全篇,并没有提供原始的数据,只提供了分析的结果,无法得到原始数据,比较可惜。
  • UKB 的数据不知道申请难度如何?有没有小伙伴可以提供一下申请经验?
image