专栏名称: 知识图谱科技

务实的人工智能布道者。跟踪介绍国内外前沿的认知智能技术(知识图谱，大语言模型GenAI)以及医药大健康、工业等行业落地案例，产品市场进展，创业商业化等

大模型与多模态大模型在医学影像中的应用：(放射科)医生入门指南-威斯康星大学、马萨诸塞州总医院、哈佛医学院等

知识图谱科技 · 公众号 · · 2025-01-23 08:07

正文

摘要

这篇论文探讨了大型语言模型（LLMs）和大型多模态模型（LMMs）在医学影像中的应用，特别是对放射科医生的影响。

Large Language Models and Large Multimodal Models in Medical Imaging: A Primer for Physicians | Journal of Nuclear Medicine

https://jnm.snmjournals.org/content/early/2025/01/16/jnumed.124.268072

核心速览

研究背景

研究问题：这篇文章探讨了大型语言模型（LLMs）和大型多模态模型（LMMs）在医学影像中的应用，特别是它们在放射学和核医学中的潜在影响。
研究难点：LLMs和LMMs在医疗领域的应用面临的主要挑战包括：模型的准确性和可靠性、偏见和错误信息的处理、以及如何在临床实践中有效地集成这些技术。
相关工作：早期的NLP算法包括基于规则的系统、统计方法和神经网络，特别是循环神经网络和词嵌入模型。近年来，Transformer模型及其变体（如BERT和GPT）在语言建模领域取得了显著进展。

研究方法

这篇论文提出了LLMs和LMMs的基本原理和技术细节，并讨论了它们在医学影像中的应用。具体来说，

LLMs的基础：LLMs基于Transformer模型，通过自注意力机制动态调整每个标记的嵌入向量。自注意力机制通过比较输入序列中的每个标记来更新标记嵌入向量。
标记化和嵌入：文本首先经过标记化过程转换为标记（tokens），然后转换为嵌入向量。嵌入向量表示每个标记的语义含义。位置嵌入用于在Transformer层之间传递标记的位置信息。
预训练和微调：LLMs通过自监督预训练学习语言的规则和模式，使用大规模无标签文本数据。预训练完成后，模型在特定任务上进行微调以提高性能。微调可以通过全量更新或参数高效的方法（如低秩适应）进行。
多模态模型：LMMs通过将图像和文本数据结合来扩展LLMs的功能。主要的多模态融合方法包括对比学习、交叉注意力和早期融合。对比学习通过强制匹配图像和文本嵌入向量来创建联合视觉-语言嵌入空间。交叉注意力通过将图像和文本嵌入向量转换到相同维度并使用跨注意力模块来实现融合。早期融合则通过将图像预处理为标记嵌入向量并与文本嵌入向量结合来进行训练。

实验设计

数据收集：预训练数据集可能包括放射学和核医学报告、临床笔记、已发表的医学文献和电子健康记录中的结构化数据。微调数据集则根据具体任务进行选择，例如，生成放射学印象的模型需要成对的影像和印象数据。
实验设置：实验在多个放射学和核医学任务上进行评估，包括临床文本摘要、差异诊断、语音识别错误检测和报告生成等。使用自动评估指标（如ROUGE、BLEU和BERTScore）和专家评估相结合的方法来评估模型性能。
样本选择：选择具有代表性的临床影像和文本数据进行实验，确保数据集的多样性和覆盖面。
参数配置：根据具体任务选择合适的模型架构和超参数配置。例如，使用BERT基础模型进行文本理解任务，使用GPT系列模型进行文本生成任务。

结果与分析

临床文本摘要：研究表明，微调的LLMs在生成放射学印象、临床笔记摘要和医患对话摘要方面与专家表现相当。这表明LLMs可以显著提高放射科医生的工作效率和报告质量。
差异诊断：利用LLMs进行差异诊断的研究表明，这些模型能够根据患者的病史和影像表现提供有价值的建议，尽管仍需要进一步验证。
语音识别错误检测：通过生成放射学报告的LLMs检测语音识别错误的研究显示，这些模型能够有效识别和纠正报告中的错误，提高报告的准确性。
报告生成：自动生成放射学报告的研究结果表明，LMMs能够生成结构化的报告，但需要进一步的专家评估以确保其临床准确性和效率。

总体结论

这篇论文总结了LLMs和LMMs在医学影像中的潜力和挑战，强调了理解这些模型的工作原理对于医生在临床实践中有效使用它们至关重要。尽管存在一些技术和伦理挑战，但这些模型在提高诊断准确性、效率和患者教育方面的潜力巨大。未来的研究应继续探索这些模型在更复杂任务和更多临床环境中的应用，并解决偏见和错误信息等问题。

论文评价

优点与创新

全面介绍：论文详细介绍了大型语言模型（LLMs）和大型多模态模型（LMMs）的基本原理和内部工作机制，适合具有基本人工智能理解的医生。
历史背景：提供了自然语言处理（NLP）的简要历史背景，帮助读者理解这些技术的演变过程。
技术细节：深入解释了令牌嵌入、变换器网络、自监督预训练、微调等关键技术组件。
多模态模型：详细描述了如何将LLMs适应为多模态模型，特别是视觉-语言模型，并讨论了其在医学影像中的应用。
实际应用：列举了LLMs和LMMs在医学影像中的多种应用，包括报告生成、医疗记录导航、临床决策和教育。
未来展望：讨论了LLMs和LMMs的未来发展方向，包括处理更复杂的影像模态和多模态代理的可能性。
实用工具：提供了关于如何优化提示工程和使用检索增强生成等实用工具的指南。

不足与反思

计算资源：LLMs和LMMs的预训练和微调需要大量的计算资源，限制了学术和医疗机构独立开发这些模型的能力。
数据共享：对于罕见或低体积的影像模态（如核医学），获取足够的临床数据进行模型细化是一个挑战。数据共享，无论是直接的还是通过联邦学习等方法，都至关重要。
多模态代理：尽管多模态代理的概念令人兴奋，但目前尚未实现，未来的研究需要探索其可能性。
临床验证：尽管已有初步研究表明LLMs和LMMs在某些任务上表现出色，但在更复杂和具有挑战性的任务（如CT、MRI和核医学报告的生成）中仍需进一步验证。
模型评估：自动评估指标（如ROUGE、BLEU、BERTScore和MoverScore）通常无法完全反映医生的偏好，专家评估仍然是评估LLMs性能的黄金标准。

关键问题及回答

问题1：LLMs和LMMs在医学影像中的具体应用场景有哪些？

临床文本摘要：利用LLMs生成放射学印象、临床笔记摘要和医患对话摘要，提高放射科医生的工作效率和报告质量。
差异诊断：根据患者的病史和影像表现，LLMs可以提供有价值的差异诊断建议。
语音识别错误检测：通过生成放射学报告的LLMs检测语音识别错误，提高报告的准确性。
报告生成：LMMs能够自动生成结构化的放射学报告，尽管自动评估指标与专家意见之间仍需进一步对齐。
教育和培训：LLMs可用于解释复杂的医学概念，简化诊断报告，回答患者关于放射学程序的问题，以及辅助放射学和核医学培训。
医学影像解释：LMMs可以用于视觉问答、医疗影像分割和疾病检测等任务。

问题2：LLMs和LMMs在医学影像应用中面临的主要挑战是什么？

准确性和可靠性：尽管LLMs和LMMs在某些任务上表现出色，但它们的输出仍可能包含错误或不准确的信息，特别是在处理复杂和多变的医学影像数据时。
偏见和错误信息：LLMs可能会从训练数据中学到并放大偏见，导致不公平的诊断结果或误导性的医疗建议。此外，模型可能会生成完全虚构的信息（称为“confabulation”），这对临床决策极为危险。
数据隐私和伦理问题：医学影像数据通常包含敏感的个人信息，如何安全地收集、存储和使用这些数据是一个重要问题。
计算资源需求：预训练和微调LLMs和LMMs需要大量的计算资源和数据，这对许多学术机构和医疗机构来说是一个挑战。
模型泛化能力：模型在特定数据集上的表现可能很好，但在实际临床环境中的泛化能力仍需验证，特别是在处理不同机构或地区的多样化数据时。

问题3：论文中提到的多模态模型的主要融合方法有哪些？这些方法各自的优缺点是什么？

对比学习：通过强制匹配图像和文本嵌入向量来创建联合视觉-语言嵌入空间。优点是可以学习到图像和文本之间的语义映射关系，缺点是需要大量的标注数据。
交叉注意力：将图像和文本嵌入向量转换到相同维度并使用跨注意力模块来实现融合。优点是可以动态地结合图像和文本信息，缺点是计算复杂度较高。
早期融合：将图像预处理为标记嵌入向量并与文本嵌入向量结合来进行训练。优点是简单易实现，缺点是可能丢失图像的高层次特征。

每种方法都有其独特的优势和局限性，实际应用中可以根据具体任务和可用数据选择合适的方法或将其结合起来，以获得更好的效果。

参考文献: