今天给大家分享的是
中山大学团队
在
24
年
8
月份
发表在期刊
Cell Reports Medicine
(
IF: 14.3
)
上的文章
《
Machine learning-based analysis identifies and validates serum exosomal proteomic signatures for the diagnosis of colorectal cancer
》
,中山大学第七附属医院(深圳)消化疾病中心团队‘神仙组合’出手!依托中山大学医学平台,用
4D-DIA
深度蛋白质组学
挖出外泌体
“隐藏宝藏”,
随机森林模型
横扫千军,锁定结直肠癌诊断
“黄金
CP
”——
PF4
和
AACT
,性能碾压传统标志物!
PF4
和
AACT
这对“黄金
CP
”不仅精准识别结直肠癌患者,还能区分早期肿瘤和良性病变,堪称诊断界的“火眼金睛”。这项研究成果为结直肠癌的早期诊断和治疗提供了新的思路,有望成为临床应用的有力工具!
资料:2025年国自然申请指南和热点攻略
关键词:
4D-DIA
蛋白质组学
+
机器学习
+
外泌体
+
结直肠癌诊断
背景介绍
结直肠癌是全球高发且致死率高的恶性肿瘤,其早期诊断对于提高患者生存率至关重要
。
然而,传统的诊断方法如结肠镜检查存在侵入性,而传统标志物
CEA
和
CA19-9
的敏感性和特异性不足,限制了其在早期诊断中的应用。外泌体作为液体活检的重要生物标志物,携带蛋白质、核酸等重要生物学信息,在细胞间通讯中发挥关键作用。研究已证实,外泌体中的非编码
RNA
和蛋白质可作为多种癌症的诊断标志物。
然而,传统的蛋白质组学技术限制了外泌体蛋白质组分析的进展。
深度蛋白质组学技术的出现为外泌体蛋白质组分析提供了新的机遇。
机器学习方法在肿瘤诊断和治疗管理中发挥着越来越重要的作用。利用机器学习方法从液体活检分析物中提取关键特征并构建诊断模型,可以实现更高的癌症诊断特异性。
样本来源
主要结果
1
.
健康人与
CRC患者血清外泌体的鉴定与表征
研究首先从
37
例样本(
25
例
CRC
患者、
12
例健康对照)的血清中分离外泌体,通过超速离心法结合纳米颗粒追踪分析(
NTA
)验证其粒径分布(平均直径
110 nm
,图
1A
)。
透射电镜(
TEM)显示典型杯状囊泡结构(图1C),Western blot进一步确认外泌体标志物CD63和TSG101的表达(图1B)
。
4D-DIA
蛋白质组学共鉴定出
854
种外泌体蛋白,其中
166
个差异蛋白(
75
个上调,
91
个下调)在
CRC
患者中
显著富集于炎症反应、凝血通路
(如血小板活化、补体途径),而健康对照组更多涉及
RNA/DNA
结合功能(图
1D-F
)。
GO
和
KEGG
分析表明,
CRC外泌体中的上调蛋白与免疫调节及细胞通讯密切相关
(图
1G-I
),为后续标志物筛选提供了分子基础。
图
1
鉴定和表征健康对照组和结直肠癌患者的血清外泌体
2. 基于机器学习的血清外泌体蛋白质标志物筛选
通过正交偏最小二乘判别分析(
OPLS-DA
),研究从差异蛋白中筛选出
12个候选标志物
(
VIP
值
>4
,图
2A-C
)。
随机森林算法进一步锁定
PF4和AACT为诊断效能最高的组合
(分类错误率
CE=0.08
,图
2D
)。
LASSO回归模型显示,仅需PF4和AACT即可区分CRC与健康对照
(
λ=0.12
,图
2F-G
),两者联合的
ROC
曲线
AUC
达
0.95
(图
2I-J
)。变量重要性分析(
Shapley
值)表明,
PF4
对模型预测的贡献度占
42%
,
AACT
占
28%
(图
2E
),远超传统标志物
CEA
和
CA19-9
(合计
<10%
)。
这一结果首次揭示了外泌体蛋白在
CRC诊断中的核心价值。
图
2
基于外泌体蛋白质组的结直肠癌诊断模型的建立与验证
3. 扩展队列中PF4与AACT异常表达的验证
在
912
例独立队列
(
338例训练集、328例测试集、246例外部验证集)
中,
ELISA
检测显示:
PF4
在
CRC
患者中的表达较健康对照升高
4.7
倍(
p<0.001
,图
3A-B
),且与肿瘤分期显著正相关(
I
期:
2.3
倍,
IV
期:
6.1
倍,图
3E-F
);
AACT
在
CRC
组中升高
3.5
倍(
p<0.001
,图
3C-D
),其水平在术后患者中迅速下降至基线(图
S2E-H
)。值得注意的是,
PF4和AACT在区分CRC与肠炎、肝炎等炎症性疾病时特异性达89.5%
(图
3G-H
),避免了传统标志物因炎症干扰导致的假阳性问题。
图
3 PF4
与
AACT
在扩展队列中的表达验证
4. 外泌体相关随机森林诊断模型的构建与验证
整合
PF4
、
AACT
、
CEA
和
CA19-9
构建的随机森林模型,在训练集中
AUC达0.960
(图
4A-B
),测试集和外部验证集分别达到
0.963和0.895
(图
4H-I
)。模型对早期
CRC
(
I/II
期)的敏感性为
86.7%
(图
4J-L
),显著优于结肠镜的常规检出率(约
70%
)。混淆矩阵显示,模型在测试集中的总体准确率为
88.3%
(图
4G
),且对良性肠病的误诊率仅为
6.2%
(图
S3E-F
)。
SHAP
分析进一步确认,