专栏名称: AI与医学

分享前沿的人工智能与医学交叉研究，提供医疗科研服务。关注大壮，科研顺畅。做医护人员科研的小助手，为您全心全意服务。

顶刊快读：基于DNA甲基化的可解释脑肿瘤AI诊断模型研究

AI与医学 · 公众号 · · 2025-03-03 00:39

正文

请到「今天看啥」查看全文

点击👆蓝字或👇名片，关注"AI与医学"

前言

一场基于DNA甲基化的“侦探之旅”，AI如何为脑肿瘤患者量身定制“私人订制”的精准诊断？这不仅是一次技术上的“大翻新”，更是给患者带来“脑洞大开”的新希望！

一键复现算法实验！

✅ 强大数据分析平台
✅ 充足云端算力资源

大壮提供各种医学算法网站部署的业务，助力你发表顶刊。

如果需求联系大壮，微信：BigStrong-AI

文末点击阅读原文，即可看到论文原文（仅OA开源论文）

论文信息

研究背景

脑肿瘤诊断的重要性 ：准确的脑肿瘤分类对于制定精准的预后和治疗方案至关重要。

传统方法的局限性 ：传统的组织病理学诊断方法已逐渐被基于基因组和表观基因组的分子诊断技术所补充。

DNA甲基化与机器学习的应用：近年来，基于全基因组DNA甲基化谱的机器学习分类器被成功应用于脑肿瘤的快速、准确分类，但其决策过程难以解释。

可解释人工智能的需求：为了增强临床应用中的信任并推动生物标志物发现，开发可解释的人工智能框架变得尤为重要。

研究介绍

一、目的

本研究旨在开发一个可解释的人工智能（XAI）框架，解释基于DNA甲基化谱的脑肿瘤分类器的决策过程。通过揭示分类器使用的DNA甲基化模式，促进生物标志物的发现，并推动脑肿瘤表观基因组学研究。

二、方法

1.数据集与随机森林模型

使用了Heidelberg脑肿瘤分类器的参考数据集，包含2801个样本的DNA甲基化数据，涵盖82种肿瘤类型和9种正常对照类型（数据源于Illumina Infinium HumanMethylation450K BeadChip阵列，测量了428,799个基因组位点的甲基化状态）。

基于随机森林（Random Forest, RF）算法构建分类器，分为“外层”分类器（基于所有428,799个探针）和“内层”分类器（基于外层分类器筛选出的10,000个最具信息量的探针）。

图1：随机森林分类器结构及探针使用情况

从图中可以看出，随机森林分类器由多个决策树组成，每个决策树的分裂节点对应一个特定的DNA甲基化探针。这些探针的使用次数反映了它们在区分不同肿瘤类别中的重要性。

2.提取随机森林探针使用情况

通过分析随机森林模型中每棵树的分裂节点，提取每个探针在区分不同肿瘤类别时的使用次数，并记录其甲基化状态（高甲基化或低甲基化）。将探针使用情况存储为一个三维数组，其中前两个维度表示所有可能的类别组合，第三个维度表示所有探针的使用情况。

3.功能基因组区域分析

根据功能基因组区域（如CpG岛、岸区、架区、开放海区、增强子、异染色质区域等）对探针进行分组，并计算每个区域的平均探针使用情况。分析启动子区域的探针使用情况，以评估其在分类中的重要性。

图2：不同功能基因组区域的探针使用模式

图2显示，CpG岛区域的探针在某些肿瘤类别中具有较高的使用频率，这与已知的CpG岛甲基化表型一致。此外，增强子区域的探针在某些肿瘤亚型中也表现出显著的差异甲基化模式。

4.探针使用模式的降维与聚类

使用t-SNE降维技术对10,000个探针的使用情况进行降维，以便可视化探针之间的关系。通过无监督聚类将探针分为88个簇，并分析每个簇的探针在不同肿瘤类别中的使用情况。

图3：探针使用情况的t-SNE聚类分析

图3显示，探针根据其在不同肿瘤类别中的使用情况被分为多个簇。每个簇中的探针通常与特定的肿瘤类别相关联，这表明分类器在决策过程中利用了高度冗余的基因组信息，增强了分类的鲁棒性。

5.可视化与交互式网络应用开发

开发了一个基于 Shiny的交互式网络应用（shinyMNP），

允许用户查询和探索不同肿瘤类别中的关键探针及其关联基因。
应用功能包括：查询特定肿瘤类别的关键探针、区分任意两类肿瘤的探针、特定基因在所有类别中的探针使用情况，以及每个类别中最具信息量的基因网络。

图4：shinyMNP网络应用界面

通过分析特定肿瘤类别中的关键基因（ETMR中的SHPRH、HGNET_MN1中的PWWP3A等），验证了模型的生物学意义。

研究结果

1. 开发可解释的AI框架

开发了一个可解释的人工智能框架，用于解释基于DNA甲基化谱的脑肿瘤分类器的决策过程。

该框架基于随机森林（Random Forest, RF）算法，通过分析每个决策树的分裂节点，量化每个DNA甲基化探针的使用频率，从而揭示分类器的决策依据。

数据集 ：包含2801个样本的DNA甲基化数据，涵盖82种肿瘤类型和9种正常对照类型。

随机森林模型 ：使用428,799个基因组位点的甲基化探针训练“外层”分类器，筛选出10,000个最具信息量的探针用于“内层”分类器。

探针使用情况 ：通过分析每棵树的分裂节点，提取探针的使用次数，并将其存储为一个三维数组。这个数组包含了所有可能的类别组合的探针使用情况，作为后续分析的基础。

2. 差分探针使用的全局模式

研究者分析了随机森林分类器中探针的全局使用模式，发现少数探针贡献了大部分的使用频率，表明这些探针在区分肿瘤类别中具有高度信息量。

探针使用分布 ：前10,000个探针贡献了61.2%的总使用频率，而25,000个探针贡献了78.1%。
类别特异性探针 ：某些探针在区分特定类别时表现出高使用频率，例如IDH突变型胶质瘤。
功能基因组区域 ：CpG岛区域的探针在某些肿瘤类别中表现出高甲基化模式，而其他区域（如开放海区）的探针则表现出低甲基化模式。

3. 信息探针的高基因组冗余

研究者进一步分析了随机森林模型中探针的冗余性和分布情况，发现分类器在决策过程中利用了大量冗余的基因组信息。

探针聚类分析 ：通过无监督聚类，将10,000个探针分为88个簇，其中大多数簇与单一肿瘤类别相关。
基因组分布 ：探针在基因组中广泛分布，没有特定的富集区域。
冗余性 ：这种高度的冗余性可能解释了分类器的鲁棒性，即使在个体样本中存在随机变异，分类器仍能准确分类。

4.可解释的人工智能为肿瘤生物学提供了新的见解

为了使可解释框架更易于研究社区使用，研究者开发了一个交互式网络应用（shinyMNP），允许用户查询和探索不同肿瘤类别中的关键探针及其关联基因。

网络应用功能 ：用户可以通过该应用查询特定肿瘤类别的关键探针、区分任意两类肿瘤的探针，以及特定基因在所有类别中的探针使用情况。
生物学发现 ：通过分析特定肿瘤类别中的关键基因，例如ETMR中的SHPRH、HGNET_MN1中的PWWP3A等，揭示了潜在的生物学机制。

学习心得

（1）本研究通过开发 可解释人工智能（XAI）框架 ，解析了基于 DNA甲基化谱 的脑肿瘤分类器的决策机制，揭示了 功能基因组区域 （如CpG岛、增强子）和关键探针在肿瘤分类中的重要性，为临床应用和生物标志物发现提供了科学依据。

（2）这里面做了一个网站（ shinyMNP ）是一个亮点，近年来顶刊都喜欢提供一个可以交互的web 网站,大壮也可以提供相关开发服务。

https://hovestadtlab.shinyapps.io/shinyMNP/

（3）大壮提供各种医学算法网站部署的业务，助力你发表顶刊。

感谢您的阅读，如果您对这项研究感兴趣或想了解更多关于AI在医学中的应用，请继续关注我们，我们会定期分享最新的科研成果和健康资讯。别忘了点赞和转发哦！👍🔄

排版：焖子 编辑： 大壮 审稿： 大壮

注：本文仅用于分享相关 学术论文研究，如存在侵权，请告知，及时删

论文ID：25022101，下载二维码:

往期推文

论文速读：Artif Intell Med 多模态深度学习改善儿科低级别胶质瘤的复发风险预测

顶刊速读:《Radiology》大规模验证GPT-4作为头部CT报告校对工具的可行性

顶刊速读&大模型:《THE LANCET Digital Health》 GPT-4能读懂医疗笔记了？

顶刊速读:《Nat Med》瘫痪患者用脑机接口控制飞行器游戏

顶刊速看:Nature Med 基于AI和超声的卵巢癌检测：一项国际多中心研究

顶刊速看:IF=9.4 基于影像组学的体成分分析在肝细胞癌患者1年生存预后中的作用

香港理工：EyeGPT—眼科专属大模型

顶刊速读:《Brain》抑郁症的大尺度病变症状映射识别风险和韧性能力大脑区域

顶刊速读:《Nat Med》瘫痪患者用脑机接口控制飞行器游戏

戳原文，看论文！