Self-improving generative foundation model for synthetic medical image generation and clinical applications
(Nat Med;IF:58.7)
In many clinical and research settings, the scarcity of high-quality medical imaging datasets has hampered the potential of artificial intelligence (AI) clinical applications. This issue is particularly pronounced in less common conditions, underrepresented populations and emerging imaging modalities, where the availability of diverse and comprehensive datasets is often inadequate. To address this challenge, we introduce a unified medical image–text generative model called MINIM that is capable of synthesizing medical images of various organs across various imaging modalities based on textual instructions. Clinician evaluations and rigorous objective measurements validate the high quality of MINIM’s synthetic images. MINIM exhibits an enhanced generative capability when presented with previously unseen data domains, demonstrating its potential as a generalist medical AI (GMAI). Our findings show that MINIM’s synthetic images effectively augment existing datasets, boosting performance across multiple medical applications such as diagnostics, report generation and self-supervised learning. On average, MINIM enhances performance by 12% for ophthalmic, 15% for chest, 13% for brain and 17% for breast-related tasks. Furthermore, we demonstrate MINIM’s potential clinical utility in the accurate prediction of HER2-positive breast cancer from MRI images. Using a large retrospective simulation analysis, we demonstrate MINIM’s clinical potential by accurately identifying targeted therapy-sensitive EGFR mutations using lung cancer computed tomography images, which could potentially lead to improved 5-year survival rates. Although these results are promising, further validation and refinement in more diverse and prospective settings would greatly enhance the model’s generalizability and robustness.
在许多临床和研究环境中,高质量的医学影像数据集的匮乏阻碍了人工智能(AI)临床应用的潜力。这一问题在较不常见的疾病、代表性不足的人群和新兴的成像模式中尤其突出,在这些领域,多样化和全面的数据集往往不足。为了解决这一挑战,我们引入了一种统一的医学图像-文本生成模型,称为MINIM,该模型能够基于文本指令在不同的成像模式下合成不同器官的医学图像。临床医师的评估和严格的客观测量验证了MINIM合成图像的高质量。MINIM在数据域上表现出更强的生成能力,显示出其作为全科医学人工智能(GMAI)的潜力。我们的研究结果表明,MINIM的合成图像有效地增强了现有的数据集,提高了多个医疗应用程序的性能,如诊断、报告生成和自我监督学习。在眼科、胸部、脑部和胸部相关任务中,MINIM平均提高了12%、15%、13%和17%的性能。此外,我们还证明了MINIM在从MRI图像中准确预测HER2阳性乳腺癌方面的潜在临床效用。通过大型回顾性模拟分析,我们证明了MINIM的临床潜力,通过肺癌CT图像准确识别靶向治疗敏感的EGFR突变,有可能提高5年生存率。虽然这些结果很有前景,但在更多样化和前瞻性的环境中进一步验证和完善将大大增强模型的普遍适用性和稳健性。
文章重点总结:
•
高质量医学图像数据稀缺:
隐私、安全和伦理问题限制了医学影像数据的共享,影响了人工智能(
AI)在医学领域的应用。
•
生成式
AI的潜力:
生成式
AI能够合成高质量的医学图像,帮助解决数据稀缺问题。
•
研究目标:
开发一个统一的医学图像
-文本生成模型(
MINIM
),以生成高质量的合成医学图像,并应用于临床诊断、报告生成和自监督学习等领域。
• 集成
OCT
、
视网膜成像
、
胸部
X光
、
胸部
CT
等不同影像模态和对应的文本描述进行训练。
• 使用
稳定扩散模型
作为核心架构,通过
强化学习(
RLHF)和迁移学习
进行自我改进。
• 客观评估:FID(Fréchet Inception Distance)、IS(Inception Score)、MS-SSIM(多尺度结构相似性指数)。
•
下游任务应用:
诊断、报告生成、自监督学习、临床突变预测。
•
主观评估:
MINIM在第三轮强化学习后,图像质量评分达到
89.25%
,远高于传统模型(例如
StyleGAN-T)。
•
客观评估:
MINIM在FID、IS、MS-SSIM等多个指标上均表现出色,优于其他生成模型。
•
强化学习(
RLHF):
使用临床医生反馈进行奖励模型训练,显著提高了生成图像的质量。
•
迁移学习:
将
乳腺
MRI
和
大脑
MRI
数据整合到模型中,实现跨模态学习,提高泛化性能。
•
诊断性能:
在添加合成图像后,诊断准确率显著提高(
OCT:93%,胸部CT:79%,X光:86%)。
•
报告生成:
在
OCT、视网膜、胸部CT、胸部X光四个模态下,报告生成的CIDEr、ROUGE-L等指标均显著提升。
•
自监督学习:
在无标签数据上进行训练后,模型的分类准确率提高了约
25%。
•
HER2状态检测(乳腺癌):
添加合成数据后,
HER2分类准确率从
79.2%提高到94.0%
。
•
EGFR突变检测(肺癌):
添加合成数据后,
EGFR突变分类准确率从
81.5%提升至95.4%
。
•
生存分析:
通过
EGFR突变检测识别适合靶向治疗的患者,有效提高5年生存率。
•
数据稀缺问题解决:
MINIM合成的高质量医学图像为AI模型提供丰富的数据源。
•
个性化医疗:
改善
HER2阳性乳腺癌和EGFR突变肺癌患者的靶向治疗决策。
•
临床诊断与报告生成:
提高疾病检测的准确性,优化诊断报告内容。
•
多模态整合:
跨越多个影像模态,生成不同类型的医学图像。
•
自我改进能力:
通过强化学习和迁移学习实现持续性能优化。
•
下游任务广泛应用:
成功应用于疾病诊断、
HER2检测、EGFR突变检测等多个临床场景。
•
数据多样性不足:
数据集主要来自于中国和高加索人群,缺乏更广泛的种族和性别代表性。
•
文本
-图像对齐挑战:
长文本描述与图像特征的对齐仍存在一定困难。
• 优化文本与图像的对齐算法,进一步提高生成图像的临床相关性。
•
MINIM模型
在多模态医学图像生成、临床诊断、
HER2状态检测和EGFR突变分类中表现出色。
• 该模型为解决医学影像数据稀缺问题提供了一种创新的解决方案,具备重要的临床应用潜力。
• 未来需要在更广泛的人群和更多的影像模态上进行验证与优化,以提高模型的鲁棒性和普适性。
陪您一起学习SCI医学论文
每天5分钟,让自己的英语牛逼起来
特殊福利让您惊喜连连
复制链接或点击原文链接,即可下载SCI原文
W
W246N06
链接: https://pan.baidu.com/s/1w1hu5HwwGplj8-Avr-NXGQ?pwd=s82x
提取码: s82x