专栏名称: 知识图谱科技

务实的人工智能布道者。跟踪介绍国内外前沿的认知智能技术(知识图谱，大语言模型GenAI)以及医药大健康、工业等行业落地案例，产品市场进展，创业商业化等

2024医学大模型应用及挑战综述 - Cornell、Duke、Berkeley、MIT等

知识图谱科技 · 公众号 · · 2024-12-30 08:58

正文

摘要

生成式 AI 功能的增加极大地扩展了其在医学中可能的用例。我们为临床医生、患者、临床试验组织者、研究人员和实习生提供了生成式 AI 用例的全面概述。然后，我们讨论了许多挑战——包括维护隐私和安全、提高透明度和可解释性、维护公平以及严格评估模型——为了实现这一潜力，必须克服这些挑战，以及它们产生的开放研究方向

本论文全面回顾了生成性人工智能在医学领域的应用，突出其在临床医生、患者、研究人员等多种角色中的潜力，并强调确保隐私、透明度、公平性以及严格模型评估等关键挑战，以安全地将该技术整合进医疗保健中。

关键要点

* 生成性人工智能在医学中提供了众多应用，影响着临床医生、患者、研究人员和医学实习生。

* 主要的生成性人工智能模型包括适用于文本的大型语言模型（LLMs）、适用于图像的扩散模型，以及处理文本与图像数据的视觉语言模型（VLMs）。

* 面临的挑战包括确保知情同意、维护隐私和安全、改善透明性和可解释性、减轻幻觉现象、设计可用界面、关注公平性，并进行强有力的现实世界评估。

* 在医疗保健中，生成性人工智能模型的现实世界评估至关重要，需超越简单的诊断准确性指标。

* 解决偏见和公平等伦理问题，对于负责任地在医疗保健中实施生成性人工智能至关重要。

* 开发友好的用户界面是成功采纳和整合生成性人工智能工具于临床实践中的关键。

* 明确生成性人工智能模型可能造成的伤害责任，对负责任的部署和监管至关重要。

Sources:

https://arxiv.org/html/2412.10337v2

核心速览

研究背景

研究问题：这篇文章探讨了生成式人工智能（Generative AI）在医学中的应用，特别是其对临床医生、患者、临床试验组织者、研究人员和医学生的潜在影响。
研究难点：该问题的研究难点包括：保持隐私和安全、提高透明度和可解释性、维护公平性以及严格评估模型。
相关工作：该问题的研究相关工作包括电子健康记录（EHR）的采用、机器人辅助手术的集成、预测模型和持续监测作为新诊断工具的基础设施等。

研究方法

这篇论文提出了多种生成式AI模型用于解决医学中的各种问题。具体来说，

文本生成：使用大型语言模型（LLMs）来生成临床笔记、回答患者查询和提供医疗建议。LLMs通常使用Transformer神经网络架构进行下一个词预测。训练LLMs通常包括三个阶段：预训练、微调和人类反馈定制。
图像生成：使用扩散模型来生成新的合成医学图像，如胸部X光片、皮肤镜图像和病理切片。扩散模型通过逐步损坏真实图像来学习生成新图像。
文本到图像：使用文本到图像（T2I）模型，输入一段文本，生成相应的图像。T2I模型由文本编码器和扩散模型组成，通常使用一般图像字幕数据集进行预训练，然后针对医学领域进行微调。
视觉语言模型（VLMs）：输入一张图像，生成涉及该图像的文本。VLMs由图像编码器和大语言模型组成，需要大量的图像-文本数据集。

实验设计

数据收集：使用PubMed等医学数据库进行预训练，使用MedQA等数据集进行微调。对于图像生成，使用公开的医学图像数据集进行训练。
实验设计：在多个医学领域中测试生成式AI模型的性能，包括临床笔记生成、患者查询回答、医疗建议提供、医学图像生成等。
样本选择：选择不同科室和疾病类型的临床笔记和患者数据，确保数据的多样性和代表性。
参数配置：根据模型的训练目标和数据特性，调整模型的预训练、微调和人类反馈定制的参数。

结果与分析

临床笔记生成：生成式AI模型能够显著减少医生完成临床笔记的时间，并提高笔记的质量。初步结果显示，使用生成式AI模型后，医生完成笔记的时间减少了约30秒。
患者查询回答：生成式AI模型能够回答患者的复杂查询，并提供个性化的医疗建议。与现有的搜索引擎相比，生成式AI模型能够提供更具体和相关的答案。
医学图像生成：扩散模型生成的医学图像在质量和多样性方面达到了令人满意的水平，能够在数据受限的情况下提高模型的鲁棒性。
公平性分析：尽管生成式AI模型在某些情况下会显示出医学刻板印象，但通过改进提示和仔细审计生成的文本，可以显著减少这种偏见。

总体结论

这篇论文全面概述了生成式AI在医学中的多种应用，并指出了实现这些应用所需克服的关键挑战。尽管生成式AI模型在医学中具有巨大的潜力，但在高风险的医学环境中部署这些模型需要谨慎。通过解决隐私和安全、透明度和可解释性、公平性和现实世界评估等问题，可以最大化生成式AI在医学中的益处。

论文评价

优点与创新

全面的概述：论文提供了生成式AI在医学中的多种应用场景的全面概述，涵盖了临床医生、患者、临床试验组织者、研究人员和受训者等多个角色。
详细的分类：论文详细分类了生成式AI的三种主要类型：文本、图像和文本与图像的生成模型，并介绍了当前最先进的模型。
实际应用案例：论文列举了生成式AI在医学中的多个实际应用案例，如辅助写作、诊断支持、患者数据检索、证据为基础的医疗等，展示了其在实际医疗环境中的潜力。
挑战与解决方案：论文深入探讨了实现生成式AI潜力所需克服的挑战，如隐私和安全、透明度和可解释性、减少幻觉、设计可用界面、公平性以及真实世界评估等，并提出了相应的解决方案。
多学科的参与：论文汇集了来自计算机科学、生物统计学、生物信息学、电气工程和计算机科学等多个学科的研究人员，展示了跨学科合作的优势。
未来的研究方向：论文指出了未来研究的方向，如改进模型的可解释性、减少幻觉、增强隐私保护等，为未来的研究提供了有价值的指导。

不足与反思

自动化偏差：论文提到，尽管生成式AI在辅助写作和诊断支持方面显示出潜力，但仍存在自动化偏差的问题，即模型生成的输出可能不完全准确或可靠。
隐私和安全问题：论文指出，生成式AI在处理敏感医疗数据时面临隐私和安全挑战，特别是在跨机构数据共享和模型部署的安全性方面。
模型解释性：论文提到，现代AI模型（包括生成式AI）通常缺乏透明度，难以解释其决策过程，这在高风险的医学领域尤为重要。
幻觉问题：论文指出，生成式AI有时会输出错误或幻觉信息，这在高风险的医学环境中可能是危险的，需要进一步研究和解决。
用户界面设计：论文提到，生成式AI界面的设计和用户评估仍是一个挑战，需要更多的研究和最佳实践来确保这些系统在实际医疗环境中的有效性和可用性。
公平性问题：论文指出，生成式AI可能会放大现有的偏见和不平等，特别是在模型训练数据的多样性和代表性方面，需要更多的努力来确保模型的公平性。
真实世界评估：论文提到，当前的评估方法可能过于简化，无法全面反映生成式AI在实际医疗环境中的表现，需要更精细和全面的评估方法。

关键问题及回答

问题1：生成式AI在医学中的具体应用场景有哪些？

临床笔记生成：利用大型语言模型（LLMs）自动生成或辅助生成临床笔记，减少医生的文档编写时间。
患者查询回答：通过LLMs回答患者的健康相关问题，提供个性化的医疗建议和信息。
医疗建议提供：基于患者的病史和当前症状，生成个性化的治疗建议和健康管理方案。
医学图像生成：使用扩散模型生成新的合成医学图像，如胸部X光片、皮肤镜图像和病理切片，用于教育和诊断。
文本到图像（T2I）：输入一段文本，生成相应的医学图像，用于医学教育和诊断。
视觉语言模型（VLMs）：输入一张医学图像，生成涉及该图像的文本描述，用于医学问答和报告生成。

问题2：生成式AI在医学应用中面临的主要挑战有哪些？

隐私和安全：医学数据通常具有高度敏感性和法律保护，如何在共享数据的同时保护患者隐私是一个重大挑战。
透明度和可解释性：现代AI模型（包括生成式AI）往往缺乏透明度，难以解释其决策过程，这在高风险的医学领域尤为突出。
公平性：医学数据中存在偏见，如何确保生成式AI的输出对所有患者都公平且无歧视是一个重要问题。
模型评估：需要在实际医疗环境中对生成式AI模型进行严格评估，以确保其在不同场景下的可靠性和有效性。
用户接受度和培训：医疗专业人员可能对新技术持怀疑态度，需要进行充分的培训和教育以适应这些变化。

问题3：论文中提到的生成式AI模型在医学应用中的具体实验结果如何？

文本生成：大型语言模型在生成临床笔记方面表现出色，能够显著减少医生的文档编写时间。然而，生成的笔记仍需医生进行编辑和完善。在回答患者查询时，模型能够提供有用的信息，但准确性有待提高。
图像生成：扩散模型生成的医学图像在质量和多样性方面表现良好，生成的图像在数据受限的情况下能够提高模型的鲁棒性。
文本到图像（T2I）：T2I模型在生成与文本相关的医学图像方面表现出色，能够生成逼真的医学图像，用于医学教育和诊断。
视觉语言模型（VLMs）