专栏名称: 生信学霸
生物信息学笔记,学习每一个软件的各种心得,分享快速做分析的技巧,分享生信分析文献,一个从业十年的生信人的所感所惑,偶尔撒泼一下!
目录
相关文章推荐
51好读  ›  专栏  ›  生信学霸

公共数据库+机器学习算法构建胰腺癌免疫相关模型,纯生信拿下6+SCI

生信学霸  · 公众号  ·  · 2024-11-25 15:30

正文


Machine learning-based identification of biomarkers and drugs in immunologically cold and hot pancreatic adenocarcinomas

胰腺癌(PAADs)通常表现出"冷"或免疫抑制性肿瘤环境,这与对免疫检查点阻断治疗的耐药性有关。然而其潜在机制尚未完全清楚。 Journal of Translational Medicine 上发表的新文章通过机器学习算法成功开发了一个能够准确预测胰腺腺癌患者疾病结果的预后模型,并识别出关键的生物标志物和潜在治疗靶点,为个性化医疗和免疫治疗策略的开发提供了新见解。


期刊:Journal of Translational Medicine(IF 6.1)

出版商:BioMed Central

发表:2024年8月16日

DOI: https://doi.org/10.1186/s12967-024-05590-0

关键词:胰腺癌 | 热/冷肿瘤 | 机器学习 | 预后模型 | 药物预测

技术手段:WGCNA分析、转录组分析、机器学习算法、生存分析等

核心思路:免疫浸润分析+共识聚类,区分免疫热/冷肿瘤>>差异分析+WGCNA分析,筛选免疫相关基因>>利用机器学习算法进一步筛选预后相关基因并构建不同预后模型>>模型效能评估和验证>>对不同PAAD亚型进行分析,从不同角度探究其对免疫的影响>>药物预测+分子对接分析,挖掘潜在治疗药物>>IHC分析验证基因表达情况


分析有术、思路创新

更多个性化生信分析方案

扫码咨询,获取您的专属私人定制!




方法





数据来源: 从TCGA、ICGC和GEO获取RNA表达水平数据和临床元数据;从ICGC和GEO获取八个PAAD单细胞RNA测序数据集;从HPA下载免疫组织化学(IHC)数据。

免疫组成分析和免疫亚型聚类: 使用IOBR包的CIBERSORT算法根据 RNA 表达数据量化22种免疫细胞类型的组分;ConsensusClusterPlus包基于免疫浸润进行共识聚类分析;ESTIMATE包计算StromalScore、ImmuneScore和EstimateScore以定义热和冷肿瘤聚类。

差异表达基因和miRNA分析: 使用limma包的voom算法分析热肿瘤和冷肿瘤之间的DEGs,并计算其与PAAD患者的miRNA表达数据的相关性。

WGCNA分析: 使用WGCNA包分析热肿瘤和冷肿瘤中的共表达基因网络,模块的相关系数要大于0.3。

构建预后模型: 使用survival包Cox回归模型筛选出与预后相关的基因,并应用多种ML算法(ANN、RF、lasso、Enet、XGBoost等)来构建预后模型,LOOCV框架来评估模型的稳定性和准确性。

药物预测: 从药物敏感性基因组学数据库获取药物敏感性数据,并使用oncoPredict包预测药物的IC50值。

分子对接分析: 使用DOCK软件预测小分子与蛋白质复合物的结合模式,并利用UCSF Chimera进行可视化。





结果




PAAD的免疫图谱和共识聚类


目的: 通过免疫浸润分析来区分免疫热(hot)和冷(cold)肿瘤,以及它们与患者预后的关系。

结果:

  1. 利用sva包整合数据集后,研究基于CIBERSORT算法估计了22种免疫细胞类型的浸润。

  2. 通过对22种免疫细胞组分进行共识聚类分析,研究将PAAD患者分为两个聚类,且这两个聚类间存在显著的生存差异(图1A,B);

  3. 基于StromaScore、ImmuneScore和EstimateScore,将C1肿瘤定义为“热免疫”肿瘤,C2肿瘤定义为“冷免疫”肿瘤(图1C);

  4. 热肿瘤中浸润的免疫细胞类型包括naïve B细胞、浆细胞、CD8+T细胞等比例更高,而冷肿瘤中调节性T细胞(Tregs)等比例更高;

  5. 通过差异分析,2055个在热肿瘤中上调的基因和2565个下调的基因(图1D);

  6. GO分析显示,与免疫反应和免疫受体活性相关的通路在热肿瘤中上调的DEGs中富集,与表皮发育、细胞骨架和染色质结构相关的途径则在热肿瘤中下调的DEGs中富集(图1E,F);

  7. KEGG分析显示,与免疫配体-受体相互作用相关的通路在热肿瘤中上调的DEGs中富集,与代谢相关途径则在热肿瘤中下调的DEGs中富集(图1G,H);

  8. GSVA分析识别了在热肿瘤中富集的多个特征性通路,其中前五个通路为“脂肪生成”、“同种移植排斥”、“雄激素反应”、“血管生成”和“顶端连接”(图1I)。

图1



识别预后和免疫相关基因特征


目的: 识别与预后相关且与免疫反应相关的特征基因。

结果:

  1. WGCNA分析显示,粉色和绿松石色模块与冷肿瘤相关,黑色模块与热肿瘤相关(图2A);

  2. 在粉色模块中,GS和MM之间的相关系数为0.46,而蓝绿色和黑色模块的相关系数分别为0.81和0.23(图2B-D);

  3. 选择GS>0.3和MM>0.5的基因进一步分析,其中包括165个与热肿瘤相关的基因(HRGs)和4183个与冷肿瘤相关的基因(CRGs)(图2E,F);

  4. 通过DEGs与WGCNA结果的交集分析,提取了118个在热肿瘤中上调的DEGs和HRGs重叠的基因,以及375个在冷肿瘤中下调的DEGs和CRGs重叠的基因(图2E,F);

  5. Cox回归分析发现82个在热肿瘤中上调的、预后相关的免疫相关基因(UPIRGs),以及96个在热肿瘤中下调的、预后相关的免疫相关基因(DPIRGs)(图2G)。

图2



构建预后模型


目的: 构建一个基于机器学习(ML)的预后模型,用于预测胰腺腺癌(PAAD)患者的存活情况。

结果:

  1. 在多个数据集中构建了基于单一和联合最大似然算法的模型,并计算了每个模型的C指数值(图3A-C);

  2. 结果显示,UPIRGs的最佳模型是Survival RF和Enet的组合,而DPIRGs的最佳模型是Survival RF和PlsRcox的组合(图3A-C);

  3. 对于综合了UPIRGs和DPIRGs的模型,发现Survival RF和PlsRcox的组合具有最佳的C指数值,被选为混合模型;

  4. 在TCGA+ICGC训练队列中,基于DPIRGs模型计算的风险评分中值将患者分为高风险和低风险组,两组间生存率存在显著差异,低风险组生存概率更好(图3D);

  5. 时间依赖的ROC曲线分析显示,1年、2年和3年生存的AUC值分别为0.979、0.983和0.986,表明模型具有很好的预测能力(图3E);

  6. 两组间的风险评分和临床状态比较结果显示,高风险组存活率较低(图3F);

  7. 此外,使用四个GSE数据集验证了DPIRGs可预测PAAD患者预后。

图3



热肿瘤和冷肿瘤的预后模型


目的: 构建应用于热肿瘤和冷肿瘤患者的预后模型。

结果:

  1. 基于DPIRGs,使用单一和组合的ML算法来构建热或冷肿瘤患者的一致性模型;

  2. 热肿瘤患者的最佳模型是存活RF和ridge的组合(热模型),而冷肿瘤患者的最佳模型是plsRcox和XGBoost的组合(冷模型)(图4A,B);

  3. Cox分析显示热模型比冷模型更适合将患者分为高风险组和低风险组,且组间生存率差异更显著(图4C-G);

  4. 热模型在GSE78229数据集中具有更大的存活率差异,而混合模型在其他数据集中存活率差异大(图4F);

  5. 热模型和混合模型预后能力比冷模型强(图4I-L);

图4



DPIRG的遗传改变和DNA甲基化分析


目的: 分析DPIRGs的遗传变异和DNA甲基化状态,以探究这些基因表达变化背后分子机制。

结果:

  1. DPIRGs在PAAD中的基因突变频率相对较低,其中PLEC基因突变频率最高(9%)(图5A);

  2. ASPM、TRPV1、PLEC等基因的CNVs与表达水平呈正相关(图5B);

  3. TRPV1、SDHAP1等基因CNVs与疾病特异性生存(DSS)、无进展生存(PFS)和总生存(OS)显著相关(图5C);

  4. ITGB4、AHNAK2和XDH的DNA甲基化水平与表达水平呈负相关(图5D);

  5. 在PAAD患者中,TRPV1、SNORA12和ITGB4的DNA甲基化与DSS、PFS和OS相关(图5E)。

图5



不同PAAD亚组预后和免疫景观


目的: 探究不同亚组免疫景观及其与预后的关联。

结果:

  1. 根据免疫亚型和风险水平,PAAD患者被分为热-高、热-低、冷-高和冷-低风险组,其中热-低风险组预后最好,而热-高和冷-高风险组预后最差(图6A);

  2. 在混合数据中,患者更多被分到热-低风险组,而高风险患者平均分布在热组和冷组(图6B);

  3. ROC分析结果显示,AHNAK2、ITGB4、ACTBP7、PLEC等10个基因可以有效区分热-低和冷-高肿瘤,AUC在0.816到0.791之间(图6C);

  4. 相关性分析显示,DPIRGs的表达水平之间的相关性在热-低风险组中更强,而其与DPIRG评分之间的相关性在冷-高风险组中更强(图6D);

  5. 不同组免疫细胞相关性分析显示,DPIRGs表达水平与免疫细胞的相关性模式在热-低风险和冷-高风险组中存在显著差异(图6E);

  6. 通过计算基因和免疫细胞之间的相关性,发现冷-高风险组和热-低风险组中基因调节的免疫细胞也存在差异(图6F)。

图6



PAAD亚型的miRNA和GSVA分析


目的: 探究不同PAAD亚型中miRNA的作用及其与DPIRGs的关系。

结果:

  1. 通过相关性分析,在热-低风险组识别出16个miRNAs与DPIRGs表达水平显著相关,在冷-高风险组中鉴定出了20个,其中hsa-mir-139在热-低风险组中表达更高,而hsa-mir-193a、hsa-mir-1248、hsa-mir-365a、hsa-mir-365b和hsa-mir-93在冷-高风险组表达更高(图7A,B);

  2. GSVA分析显示,热-低风险组相对于冷-高风险组富集的生物学通路如图7C所示;

  3. 在两组中,naïve B细胞与前10个富集的hallmark通路呈正相关,而restNK细胞、activated mast cells和eosinophils与之呈负相关(图7E)。

图7



免疫治疗反应分析和药物预测


目的: 分析PAAD患者对免疫治疗的反应性,并预测了可能影响DPIRGs表达及患者预后的药物。

结果:

  1. 热-低风险肿瘤的TIDE评分显著低于冷-高风险肿瘤,表明热低风险肿瘤对免疫治疗的反应性更高(图8A);

  2. 在对PD-1阻断有反应的患者中,DPIRG评分显著低于无反应的患者(图8B);

  3. 使用五种ML算法预测了影响TIDE分数的显著DPIRGs,前5个基因是RPL1P42、KRT18P7、MIR554、RBMXP2和FAM157A(图8C);

  4. 通过DPIRG表达与药物反应相关性分析,识别出23种药物与DPIRG表达水平负相关,这些药物在热-低风险和冷-高风险组中的IC50值存在差异,暗示这些药物可能在冷高风险组中具有更强的治疗效果(图8D-F);

  5. 通过五种ML算法,预测出与PAAD患者预后相关的前8种药物,以及能够显著调节DPIRG评分的前8种药物,包括thalidomide、SB-431542和bleomycin A2等(图8G,H)。

图8



药物分子与DPIRG的结合


目的: 预测药物可能的作用机制和潜在疗效。

结果:

  1. 从ZINC15数据库下载了8种活性化合物的化学结构,并选择了4个具有完整蛋白质结构的基因进行结合模式研究(图9A-D);

  2. 根据对接得分,SB-431542和semagacestat两种药物与GLIPR1L1蛋白质的结合最为强效;

  3. SB-431542和semagacestat也与TRPV1、PLEC和CEP295NL蛋白质有较强的结合,尽管在TRPV1和PLEC蛋白质表面没有识别出明显的口袋结构,但这些蛋白质的结合仍然相对稳定(图9C-H);

图9








请到「今天看啥」查看全文