Basic Information
英文标题: A generalist vision–language foundation model for diverse biomedical tasks
中文标题:一个用于多种生物医学任务的通用视觉-语言基础模型
文章作者:Kai Zhang | Lichao Sun
文章链接:https://www.nature.com/articles/s41591-024-03185-2
Abstract
Para_01
传统的生物医学人工智能(AI)模型,旨在处理特定任务或模态,通常在实际部署中表现出有限的灵活性,并且难以利用全面的信息。
通用型 AI 有望解决这些问题,因为它能够解释不同的数据类型,并为各种需求生成定制的输出。
然而,现有的生物医学通用型 AI 解决方案通常是重量级的,并且对研究人员、从业者和患者封闭源代码。
在这里,我们描述了 BiomedGPT,这是第一个开源且轻量级的视觉-语言基础模型,设计为能够执行多种生物医学任务的通用型模型。
BiomedGPT 在 25 项实验中的 16 项取得了最先进的成果,同时保持了计算友好的模型规模。
我们还进行了人工评估,以评估 BiomedGPT 在放射学视觉问答、报告生成和总结方面的能力。
BiomedGPT 展现了强大的预测能力,在问答中的错误率为 3.8%,在撰写复杂的放射学报告中的错误率为 8.3%,以及与人类专家几乎相当的总结能力。
我们的方法表明,使用多样化数据的有效训练可以导致更实用的生物医学 AI,以提高诊断和工作流程效率。
Main
Para_01
人工智能技术,特别是基于变压器的基础模型,在解决广泛的生物医学任务方面展示了它们的力量,包括放射学解释、临床信息总结和精确疾病诊断。
然而,当今大多数生物医学模型作为专门系统运作,针对特定任务和模式进行了定制。
这种专业化带来了模型部署的重大挑战,尤其是在使用人工智能进行精准医疗和以患者为中心的护理的兴趣日益增长的情况下,这需要整合和分析各种数据类型和患者特定细节。
此外,人工智能在狭窄学科中的过度专业化往往无法提供医生在现实世界环境中所需的全面见解,因为在这些环境中,信息流可能是缓慢且断断续续的。
一个通用的生物医学人工智能有可能通过使用多功能模型来克服这些限制,这些模型可以应用于不同的任务,并且足够强大,能够有效地处理医疗数据的复杂性。
Para_02
通用基础模型的出现为生物医学通才AI的发展提供了原型。
这些先进的模型将不同模态、任务或领域的多样化数据集序列化为统一的令牌序列,然后使用变压器神经网络进行处理。
与主要设计用于处理文本数据的大规模语言模型不同,通才模型可以同时处理文本和视觉信息。
这种能力对于复杂的生物医学应用至关重要,在这些应用中,整合不同类型的数据(如临床文本和放射影像)对于准确分析和决策至关重要。
此外,通才模型展现出令人印象深刻的多任务处理能力,通过减少维护众多狭隘专注的专家模型的需求,极大地简化了AI系统的部署和管理。
Para_03
在这篇论文中,我们介绍了 BiomedGPT,这是一种通用的视觉-语言基础模型原型,旨在使用自然语言指令跨模态执行多种生物医学任务(图1)。
与专用于单一任务、仅专注于一个学科或不公开可用的多模态生物医学AI系统不同,BiomedGPT 使用跨学科的数据进行训练,并在广泛的任务上进行了评估。
BiomedGPT 是完全透明的、开源的且轻量级的(例如,它比拥有562亿参数的商业通用生物医学AI模型Med-PaLM M小3,088倍),从而促进更广泛的实施。
为了增强 BiomedGPT 的通用能力,我们构建了一个大规模的预训练语料库,包括592,567张图像、约1.83亿个文本句子、46,408个对象-标签对和271,804个图像-文本对(图2c,d)。
此外,为了提高其遵循指令的能力,我们开发了一个称为 Instruct-BiomedGPT 的变体,该变体使用特别策划的指令调优数据(补充图1)。
Fig. 1: BiomedGPT can process diverse modalities and perform versatile tasks.
a, BiomedGPT 主要专注于视觉和文本输入,但也可以通过序列化处理表格数据。CT,计算机断层扫描;EHR,电子健康记录;EKG,心电图;MRI,磁共振成像。
b, BiomedGPT 支持的下游视觉-语言任务的例子展示了它的多功能性。可以通过轻量级的任务特定微调来整合更多任务以满足进一步的临床需求。
c, BiomedGPT 在临床上相关的用例包括输入包含图像和文本或仅包含文本的任务;模型通过生成响应(A)来回答查询(Q)。得益于其统一的框架设计和对生物医学数据的全面预训练,BiomedGPT 具有高度适应性,可以应用于各种下游任务。BP,血压;CABG,冠状动脉旁路移植手术;CAD,冠状动脉疾病;ER,雌激素受体;GnRH,促性腺激素释放激素;HR,心率;NRB,非重复呼吸面罩;PR,孕酮受体;RR,呼吸频率;Reg#,去识别的‘医疗记录号’。
Fig. 2: An overview of BiomedGPT: workflow, performance and pretraining datasets.
a,说明了 BiomedGPT 如何处理多模态输入并执行多样化的下游任务。每个任务的预期输出形式由向模型提供特定指令来确定。2D,二维。
b,对比分析 BiomedGPT 与先前的最佳结果和 Med-PaLM M(120亿参数)的成就。评估指标包括图像分类、医学语言推理和视觉问答(与最佳结果基准比较)的准确性;图像描述的 CIDEr;文本摘要的 ROUGE-L;视觉问答的加权 F1 分数(与 Med-PaLM M 比较);以及乳腺肿块和钙化分类的 F1-macro(也与 Med-PaLM M 比较)。
c,预训练数据集的分布,包括作为视觉和语言数据集的图像描述和视觉问答,对象检测数据集和仅图像数据集用于掩码图像建模。
e,规模相关性能的比较。尽管 BiomedGPT 的参数远少于同类模型,但在 SLAKE 视觉问答数据集上表现出优越的性能。B,十亿;M,百万。
Para_04
据我们所知,BiomedGPT 是第一个完全透明的通用医疗 AI 模型,已在公开可访问的数据集和医疗专业人员的评估中进行了全面评估。
本研究首先强调了 BiomedGPT 的迁移学习能力,展示了该模型如何利用预训练知识通过微调有效专长于 25 个数据集(扩展数据表 1 和 2 以及补充表 7)。
我们使用文献中的公认指标来将我们的模型与最先进(SOTA)的结果进行基准测试。
此外,BiomedGPT 是一个零样本学习者,无需进一步训练即可回答多模态医学问题,其性能与领先的 AI 系统相当。
此外,医生在放射学领域的视觉问答(VQA)、报告生成和总结等任务中对 BiomedGPT 进行了评估,它表现出令人满意的表现。
尽管我们的结果突出了 BiomedGPT 在医疗应用中的潜力,但也表明需要进行重大改进才能使其在临床中使用。
对 BiomedGPT 的关键评估特别需要在安全、公平性和偏见领域进行。
我们的发现强调了在这些模型能够有效部署到临床环境之前必须解决的挑战。
Results
Pretraining using large and diverse datasets
使用大型和多样化的数据集进行预训练
Para_01
BiomedGPT 使用了包括掩码建模和监督学习在内的预训练技术,旨在通过从各种任务的广泛数据集中学习来建立稳健且通用的数据表示。
为了最大化 BiomedGPT 的泛化能力,我们从 14 个免费可用的数据集中获取了预训练数据,确保了模态的多样性。
此外,为了研究 BiomedGPT 在不同规模上的表现,我们特别引入了模型的三个版本:BiomedGPT-S、BiomedGPT-M 和 BiomedGPT-B,分别对应小型、中型和基础大小。
Fine-tuning for downstream tasks
针对下游任务的微调
Para_01
根据之前的生物医学研究,并旨在实现足够有效的性能,我们主要对模型进行了微调,以适应各种生物医学任务(图 1b,c)。
我们选择下游任务的原因在于它们潜在的实际应用:医学图像分类可以帮助疾病诊断和病变识别;文本理解和摘要可以简化临床操作,例如减轻医生撰写笔记的负担。
此外,图像描述和视觉问答为未来的医疗聊天机器人奠定了基础,解决了普通语言可能模糊而医学术语又过于复杂、大多数人难以理解的问题。
本文使用的所有下游数据集的完整统计信息见扩展数据图 1b。
BiomedGPT is lightweight but competitive in multimodal tasks
BiomedGPT 轻量级但在多模态任务中具有竞争力
Para_01
我们在两个主要的多模态任务上对 BiomedGPT 进行了微调,分别是视觉问答(VQA)和图像描述,每个任务使用了三个下游数据集。
VQA 数据集包括涵盖五种解剖结构的放射学数据(VQA-RAD 和语义标记知识增强数据集(SLAKE)),以及捕捉解剖学和组织特异性细节的病理学数据(PathVQA)。
对于图像描述,我们纳入了胸部 X 光片数据集(IU X-ray 和重症监护医疗信息市场胸部 X 光片(MIMIC-CXR))以及来自 Peir Gross 的临床照片。
为了进行比较,我们将 BiomedGPT 与每个数据集的领先模型进行了基准测试。
Para_02
我们通过将生成的答案与真实答案进行比较来评估模型的视觉问答性能。
我们的BiomedGPT模型的整体准确性详见扩展数据表1。
值得注意的是,BiomedGPT在SLAKE数据集上实现了86.1%的整体准确率,超过了之前由BiomedCLIP设定的最先进(SOTA)性能85.4%。
此外,我们分析了‘封闭型’和‘开放型’问题-答案对的准确性(图3a)。
我们的模型在封闭型问题上的表现令人鼓舞:在PathVQA上的准确率为88.0%,比当前最先进模型高出1.0%。
在SLAKE数据集中,BiomedGPT-B的封闭型问题准确率为89.9%,比M2I2模型的性能低1.1%。
在开放型场景中,我们的模型表现出色,准确率达到84.3%,超过M2I2的74.7%。
然而,对于VQA-RAD和PathVQA数据集,BiomedGPT在开放型查询上的表现不太具有竞争力,准确率分别为60.9%和28.0%。
Fig. 3: BiomedGPT performs fine-tuning for vision–language and medical-image-classification downstream tasks.
a, BiomedGPT 和领先模型在封闭式和开放式问题准确性方面的医学问答性能。括号中的信息表示与 BiomedGPT-B 相比的性能变化。× 表示其他模型参数量相对于我们模型的比例。↓ 表示与我们模型相比性能下降。↑ 表示与我们模型相比性能提升。例如,0.5↓ 表示相应模型的准确率比 BiomedGPT-B 低 0.5。
b, BiomedGPT 和最先进平台在 IU X-ray、Peir Gross 和 MIMIC-CXR 数据上的图像描述性能。评估指标是 ROUGE-L、METEOR 和 CIDEr。
c, 在每个域类型上对 MedMNIST-Raw 数据集进行图像分类的评估。
d, 在两个超分辨率图像数据集上的图像分类性能,以准确率为指标。
e, 在 CBIS-DDSM 数据集上通过 F1-macro 评估的图像分类性能。
f, 跨九个不同分辨率(以像素为单位显示在图上)的数据集的准确性随着模型规模的变化而变化。一般来说,较大的模型倾向于表现更好。
Para_03
此外,我们使用加权 F1 分数将 BiomedGPT-B 与 Med-PaLM M(120 亿参数)进行了比较,如论文所述。
由于 Med-PaLM M 是闭源的,因此无法计算其他指标。
值得注意的是,尽管 BiomedGPT-B 的规模小得多,但它仍取得了令人印象深刻的结果(图 2b)。
在 VQA-RAD 和 SLAKE 数据集上,BiomedGPT-B 分别获得了 73.2% 和 85.2% 的分数,这代表在 VQA-RAD 上提高了 22.5%,在 SLAKE 上略有提升 0.02%。
此外,在 PathVQA 数据集上,BiomedGPT-B 的加权 F1 分数为 56.9%,仅比 Med-PaLM M 低 0.4%,而使用的模型参数减少了 98.5%。
Para_04
为了评估模型的图像-标题生成能力(图3b),我们使用了三个指标:基于回忆的概括评估-最长公共子序列(ROUGE-L)、用于翻译评估的显式排序度量(METEOR)和基于共识的图像描述评估(CIDEr),仔细评估了机器生成文本的质量。
我们将BiomedGPT的性能与已建立的模型进行了比较。
这些评估指标对于评估生成文本与医学专家撰写的参考文本之间的相似性和共识非常有用。
因此,那些在这类自然语言处理(NLP)指标上得分较高的模型可以被选为进一步人工评估的候选对象。
在Peir Gross数据集上,我们的BiomedGPT模型超过了现有的最先进基准,ROUGE-L指标提高了8.1个百分点,METEOR指标提高了0.5分,CIDEr指标大幅提升了89.8分。
相反,在IU X射线数据集上,BiomedGPT获得了40.1的领先CIDEr分数,比最先进模型提高了5.0分。
在MIMIC-CXR数据集上,就METEOR而言,我们的模型记录了15.9%的分数,超过了之前的领先结果。
BiomedGPT enables accurate medical-image classification
BiomedGPT 实现了准确的医学图像分类
Para_01
对于医学图像分类任务,我们整理了一个生物医学图像数据集,命名为 MedMNIST-Raw,涵盖了七个模态:(1) 包含九种组织类型的结肠病理;(2) 七种典型的色素性皮肤病变的皮肤镜图像;(3) 乳腺超声(正常、良性及恶性);(4) 视网膜光学相干断层扫描(OCT),分为四种视网膜疾病类型;(5) 用于肺炎与正常情况二分类的胸部X光图像;(6) 显示八种正常细胞的血细胞显微镜图像;以及 (7) 冠状面横跨11个器官的腹部计算机断层扫描(CT)。
此外,我们在两个肺部疾病的超分辨率数据集上测试了模型,特别关注肺结核(TB),该疾病样本数量有限:(8) 蒙哥马利县胸部X光数据集(MC-CXR),尺寸为4,020 × 4,892或4,892 × 4,020像素;以及 (9) 深圳胸部X光数据集(SZ-CXR),尺寸约为3,000 × 3,000像素。
为了与先前的研究保持一致,我们使用准确率进行评估。如图3c–e所示,在经过五个周期的微调后,BiomedGPT 在九个生物医学图像分类数据集中的七个上超越了之前的最先进系统。
Para_02
值得注意的是,在 SZ-CXR 和 MC-CXR 数据集(二分类)上,BiomedGPT 的准确率分别为 97.0% 和 89.7%,分别比先前领先的模型 LightTBNet 提高了 6.0% 和 0.8%(图 3d)。
对于 MedMNIST-Raw,我们选择了两种在生物医学影像分析中表现最佳的方法,MedViT(大型)和 BiomedCLIP,作为比较的基准。
对于 BiomedCLIP,我们增加了一个决策层并对整个模型进行了微调。
BiomedGPT 在 MedMNIST-Raw 上实现了 7 项中的 5 项最佳准确率(图 3c):例如,在皮肤镜数据集上,BiomedGPT 超过了两个基线模型超过 14%。
平均而言,BiomedGPT 在性能上分别比 MedViT 和 BiomedCLIP 提高了 6.1% 和 3.3%。
Para_03
BiomedGPT 的性能随着其规模的增加而提高(图 3f)。
具体来说,在 MC-CXR 数据集上,小型模型的准确率为 75.9%。
相比之下,中型模型的得分为 82.8%,比小型模型高出 6.9%。
基础模型继续这一上升趋势,得分为 89.7%,超过中型模型 6.9%。
然而,我们还观察到在某些数据集上,如 SZ-CXR,性能趋于饱和。
我们还测试了将图像调整到非常小的尺度的极端情况,发现性能饱和变得更加明显。
Para_04
此外,我们在 Curated Breast Imaging Subset of Digital Database for Screening Mammography (CBIS-DDSM) 数据集上对 BiomedGPT 和 Med-PaLM M 进行了基准测试,针对三类病变级别的肿块分类和钙化分类。
使用宏平均 F1 分数(F1-macro)作为评估指标,与 Med-PaLM M 的评估方式一致,我们发现 BiomedGPT-B 在所有版本的 Med-PaLM M 中表现最佳,包括 120 亿、840 亿和 5840 亿参数的模型(图 3e 和扩展数据图 4a)。
这些发现突显了 BiomedGPT 即使相对于更大规模的模型也具有令人印象深刻的效率和有效性。
BiomedGPT understands and summarizes clinical text
BiomedGPT 理解并总结临床文本
Para_01
我们评估了BiomedGPT在理解和简化复杂医学叙述方面的能力,这些叙述有可能解决现实世界的临床需求:(1)使用MedNLI数据集测试模型从给定的前提推断假设的理解能力;(2)基于SEER数据集提出放射治疗和化学治疗的建议;(3)根据入院记录预测住院死亡率;以及(4)识别适合个人的候选临床试验列表的临床试验匹配。
此外,我们还探讨了BiomedGPT在医学文本总结方面的表现,该应用被用于医生-患者对话的数据集(MedQSum和HealthCareMagic)以及放射学报告(MIMIC-CXR和MIMIC-III)。
Para_02
在评估 MedNLI 数据集的三类分类(蕴含、矛盾或中性)时,我们使用了准确率作为评估指标,这与先前的研究一致。
值得注意的是,与 SciFive-Large16 的最先进性能相比,后者准确率为 86.6%,而参数量仅为 SciFive-Large 四分之一的 BiomedGPT-B,准确率仅下降了 2.8%。
Fig. 4: BiomedGPT performs few-epoch transfer learning for clinical-text understanding and summarization and generates a response through zero-shot transfer learning.
a, 使用十折交叉验证(n = 4,680 个数据样本)评估治疗建议任务模型的准确性。
b, 使用十折交叉验证(n = 7079 个数据样本)从 TREC 2022 数据集派生的患者-试验匹配数据集上的性能比较,评估指标为准确性。
c, 三种 BiomedGPT 变体和两种最先进模型(BioGPT 和 LLaVA-Med)在院内死亡率预测上的准确性。
d, 四个文本摘要数据集上相对于模型规模的 ROUGE-L 分数。
e, 在 MedNLI 数据集上的医学语言推理性能。
f, Instruct-BiomedGPTs(基础、中等、小型)、BiomedGPTs、OFAs(大型、超大型)、LLaVA-Med 和 GPT-4V 在零样本问题对齐准确性上的比较。展示了生成答案与问题不匹配的一个例子。
g, 在 VQA-RAD 数据集上七种问题类型上的平均零样本准确性。
h, 在 VQA-RAD 数据集上进行 50 次重复采样(n = 39 个数据样本)的总体零样本学习性能。
Para_03
对于治疗建议任务,我们采用了先前工作描述的预处理步骤。
一个示例输出是:‘建议使用束流辐射,建议辐射顺序应在手术后。此外,确实应该考虑化疗。’
为了评估三种变体在治疗建议中的有效性,我们使用了十折交叉验证方法,并与当前开源的最先进方法进行了比较,包括 BioGPT 和 LLaVA-Med(图 4a),它们分别有 3.47 亿和 70 亿参数——分别是 BiomedGPT-S 的约 11 倍和 212 倍大。
BiomedGPT-B 达到了 50.0% ± 5.3% 的平均准确率,优于准确率为 45.9% ± 4.8% 和 41.5% ± 7.1% 的 BioGPT 和 LLaVA-Med。
考虑到涉及六种放射疗法、七种放射序列和两种化疗,这共同意味着随机猜测的准确率为 1.2%,BiomedGPT 和基线模型的准确率都远高于这一基线。
Para_04
对于临床试验匹配任务,我们从文本检索会议(TREC)2022收集了一个数据集,分为三组:符合条件、无关和不符合条件。
我们从每组中随机选择了80%的数据作为训练集,剩余20%作为测试集,并报告了10次重复的平均结果。
再次,BiomedGPT的所有三个版本均优于基线(图4b)。
特别是,BiomedGPT-B实现了85.2% ± 1.5%的平均准确率,显著优于BioGPT和LLaVA-Med,后者的准确率分别为42.0% ± 1.8%和48.7% ± 2.4%。
Para_05
为了评估 BiomedGPT 在预测住院死亡率方面的表现,我们使用了从 MIMIC-III 数据库中提取的入院记录,遵循参考文献 49,并使用官方测试集。
图 4c 展示了五个模型的预测准确性结果,表明所有三个版本的 BiomedGPT 均优于 BioGPT 和 LLaVA-Med。
值得注意的是,BiomedGPT-B 相比这两个基线模型的准确率提高了超过 15%。
Para_06
我们使用 ROUGE-L 指标来评估 BiomedGPT-B 在四个基准数据集上的文本摘要性能(图 4d)。
BiomedGPT-B 展现了其在 MedQSum 和 HealthCareMagic 数据集上总结医患对话的能力,分别达到了 52.3% 和 42% 的 ROUGE-L 分数。
具有 4 亿参数(至少是 BiomedGPT-B 的两倍大)的领先模型记录了 53.2% 和 44.7% 的 ROUGE-L 分数,而 BiomedGPT-B 的性能仅下降了 0.9% 和 2.7%。
此外,在总结放射学报告方面,特别是在从放射科医生的发现生成印象时,BiomedGPT-B 在 MIMIC-CXR 数据集上实现了 44.4% 的 ROUGE-L 分数。
这一结果与最先进模型的表现非常接近,仅比最高分 44.5% 落后 0.1%。
在 MIMIC-III 数据集中,BiomedGPT-B 的表现尤为突出,ROUGE-L 分数为 30.7%,超过了 Med-PaLM M(120 亿参数),后者得分为 29.5%。
BiomedGPT can perform zero-shot prediction on new data
BiomedGPT 可以对新数据进行零样本预测
Para_01
我们专注于评估 BiomedGPT 在视觉问答(VQA)中的零样本能力,突出其能够大规模地以自由形式回答生物医学问题,而无需重新训练。
这与早期的生物医学人工智能模型形成了鲜明对比,例如基于双向编码器表示的变压器(BERT)或基于视觉变压器(ViT)的模型,这些模型无法进行零样本预测,或者基于对比语言-图像预训练(CLIP)的模型,这些模型需要预定义的答案(扩展数据图 5a)。
与这些模型不同,BiomedGPT 只需处理输入数据就能生成答案,为生物医学查询提供了更灵活和动态的人工智能解决方案。
除了医疗 VQA 外,BiomedGPT 还展示了在疾病诊断和 X 光报告生成方面的零样本能力,其性能与 Med-PaLM M 和 LLaVA-Med 相当(扩展数据图 5b,c)。
Para_02
我们使用了未包含在预训练数据中的 VQA-RAD 数据集进行评估,通过 50 次随机抽样。
我们对 BiomedGPT 性能的评估集中在两个关键指标上:(1) 模型提供正确答案的准确性,(2) 其理解问题并在上下文相关的方式回应的能力,衡量为一致性准确性。
我们注意到预训练模型的一致性准确性较低,表明问题理解能力较差(图 4f)。
为了解决这个问题,我们开发了 Instruct-BiomedGPT,该模型使用指令调优数据进行了微调(补充图 1)。
我们在零样本设置下评估了该模型与当前最先进模型的对比,包括 GPT-4V、LLaVA-Med (7B)、OFA-Huge (9.3 亿参数) 和 OFA-Large (4.7 亿参数),分析了各种问题类型(扩展数据表 4)。
具体而言,Instruct-BiomedGPT-B 在零样本设置下的准确率为 54.7% ± 5.7%,超过了 GPT-4V 的 53.0% ± 6.7%(图 4h)。
尽管在理解医学问题方面有所改进,但没有一个模型达到临床可接受的性能水平。
例如,目前表现最佳的医学视觉-语言模型 LLaVA-Med,在疾病诊断和病变检测方面的准确率分别为 42.0% 和 40.6%(图 4g)。
虽然 Instruct-BiomedGPT-B 相比 LLaVA-Med 提高了超过 10%,但准确率仍低于 60%。
这些结果突显了诊断的复杂性以及在开发视觉-语言生物医学 AI 过程中持续微调的必要性。
Para_03
关于对齐准确性,GPT-4V 和 LLaVA-Med 超越了其他模型(图 4f);具体来说,它们分别达到了令人印象深刻的 99.5% ± 1.1% 和 98.2% ± 2.0%,这可能归功于它们所基于的先进大型语言模型。
Instruct-BiomedGPT 和预训练的 BiomedGPT 之间的对齐准确性显著提高,证明了指令调优在提高模型准确遵循指令能力方面的有效性。
例如,BiomedGPT-B 达到了 79.2% 的平均对齐准确性,而 Instruct-BiomedGPT-B 则达到了 95%。
Human evaluation of BiomedGPT for radiology tasks
人类对BiomedGPT在放射学任务中的评估
Para_01
为了评估 BiomedGPT 的临床适用性和部署挑战,我们通过放射科医生对模型生成的回答进行了一系列分析,这些回答涵盖了包括视觉问答(VQA)、报告生成和放射学报告总结在内的广泛任务。
图5a展示了人类对这三项任务在响应事实性、遗漏和错误严重程度方面的评价示例。
Fig. 5: Human evaluation of the VQA, text-summarization and captioning tasks.
a, 三个任务的人类评估示例,涉及响应的事实性、遗漏和错误的严重程度。在给定的X射线图像中,L表示患者身体的左侧;‘O’不是字母,而是主体体内或体外异物的成像。
b, 三种模型在放射学VQA六个问题类别上的性能比较。
d, BiomedGPT-B和BiomedGPT-M生成的放射学报告中的错误和遗漏率。
e, 报告总结的人类评估考虑了三个属性:完整性、正确性和潜在危害,并结合放射科医生的偏好。具体来说,在所有比较对(来自医学专家的参考摘要和BiomedGPT生成的摘要)中,放射科医生评估者更偏好参考摘要的比例为52%。对于剩余的48%案例,评估者认为BiomedGPT生成的摘要更好。
Radiology VQA
放射学问答
Para_01
为了临床评估 BiomedGPT 回答的正确性,我们从 MIMIC-Diff-VQA52 官方测试集中的 16 张图像中随机选择了 52 个问题-答案样本,涵盖 6 个类别(补充表 2):异常、存在、位置、类型、视图和严重程度。
为了公平比较,我们收集了 BiomedGPT、微调后的 LLaVA-Med 和 GPT-4V(零样本)生成的答案。
生成的答案被呈现给马萨诸塞州总医院的一位资深放射科医生进行评分(图 5b,c)。
答案被分类为正确、部分正确、不正确或无关,并分别赋予 2 分、1 分、0 分和 -1 分。
此外,还向放射科医生提供了原始的放射学报告作为参考,可能有助于更精确的评估。
Para_02
BiomedGPT 在所有 52 个样本中平均得分为 1.75,总分为 91。
相比之下,GPT-4V 和 LLaVA-Med 的平均得分分别为 1.17 和 1.4,总分分别为 61 和 73。
BiomedGPT 在五个问题类别中的四个表现出色。
此外,尽管放射科医生在 MIMIC-Diff-VQA 的抽样黄金标签中发现了一些错误,我们还是使用这些标签在测试集中对非差异性问题进行了完全匹配评分的比较。
Radiology report generation
放射学报告生成
Para_01
此任务的复杂性在于需要提供详细的描述各种方面,如异常的存在、位置和严重程度。
在这项研究中,我们从MIMIC-CXR数据集中随机选择了30对图像-报告样本。
然后,我们应用了BiomedGPT-B和BiomedGPT-M来基于输入的胸部X光图像生成放射学报告中的‘发现’部分。
放射科医生通过解决几个方面的问题来评估生成文本的质量。
首先,他们指出了与生成报告的任何不一致之处,例如错误的发现位置、错误的严重程度水平、引用不存在的观点或提及不存在的先前研究。
其次,放射科医生确定生成报告中的错误是否关键,选项包括关键、非关键或如果需要更多信息则为N/A。
Para_02
在评估中,我们关注了发现级别的指标,其中生成的文本将被拆分为单独的发现。
例如,报告‘提供了胸部的正位和侧位视图。再次注意到心脏扩大伴有轻微肺水肿。没有大的积液或气胸。’包含三个发现。
为了清楚地展示生成发现的质量,我们量化了错误率和遗漏率(图5d)。
在分析的192个生成发现中,BiomedGPT-B达到了8.3%的‘关键错误’率,而BiomedGPT-M则为11.0%(排除了一个需要额外信息进行全面影响评估的案例)。
这些比率与MIMIC-CXR上人类观察者的变异性相当,后者的错误率约为6%。
我们还报告了‘无害错误’的比率;BiomedGPT-B和BiomedGPT-M分别达到了5.2%和11.5%。
我们的观察还包括对参考报告中的254个发现进行分析,以计算遗漏率。
BiomedGPT-B和BiomedGPT-M的总遗漏率分别为23.3%和23.5%。
由于参考中描述的所有发现并非都是临床必需的,我们的分析主要集中在关键遗漏上;BiomedGPT-B和BiomedGPT-M的比率相似,分别为7.0%和6.9%。
Radiology report summarization
放射学报告总结
Para_01
我们评估了基于 MIMIC-CXR 数据生成的 100 份由 BiomedGPT-B 产生的摘要,并与相应的参考报告的‘印象’部分进行了对比。
我们的评估重点在于完整性、正确性以及因遗漏或错误解释可能导致的潜在医疗不良影响(图 5a)。
完整性从 1(非常不完整)到 5(非常完整)进行评分,3 表示临界(中立)概括。
准确性通过内容反映患者临床意义的程度来评估,从 1(非常不正确)到 5(非常正确)进行评分。
错误导致的潜在医疗不良影响根据其临床影响被分类为‘无害’、‘轻微’或‘严重’。
最后,我们比较了生成的摘要和引用的摘要哪个更好地概括了所有相关的临床信息,提供了 AI 生成的摘要与传统放射学报告在相关性、准确性和安全性方面的全面比较。
Para_02
BiomedGPT生成的摘要通常表现出更高的完整性(图5e),在81.0%的情况下达到平均完整性(评分>3),比参考摘要高出15.0%。
此外,只有5%的BiomedGPT生成的摘要是不完整的(评分<3),而参考摘要的比例为4%。
尽管如此,BiomedGPT的平均完整性评分为3.9,略低于参考摘要的4.0,但没有显著差异(P > 0.05)。
BiomedGPT的正确率也更高,其90.0%的摘要评分超过3,而参考印象的这一比例为86.0%。
威尔科克森秩和检验显示,BiomedGPT与参考摘要之间的平均正确性评分没有显著差异(P > 0.05),两者平均得分为5分中的4.4。
此外,我们的分析发现,6.0%的BiomedGPT生成的摘要包含医疗不利项目,被归类为‘轻微’或‘严重’,这与参考印象中观察到的比例相同。
这表明BiomedGPT在总结放射学报告方面,尤其是在评估医疗安全方面,表现与人类专家相当。
值得注意的是,在参考印象中发现了一例‘严重’不良反应,而在BiomedGPT生成的摘要中未发现此类案例。
BiomedGPT生成的摘要的整体评分与参考生成的摘要非常接近,偏好评分分别为BiomedGPT 48%,参考52%(图5e)。
符号检验的结果(P > 0.05)表明,对任一系统的偏好没有显著差异,这意味着在提供医疗摘要的质量和安全性方面,两者的表现相当。
Discussion
Para_01
在这项研究中,我们已经证明了 BiomedGPT 通过在一个统一的预训练框架内整合多样化的生物医学模态和任务,可以在视觉、语言和多模态领域实现具有竞争力的迁移学习性能。
然而,实验结果也揭示了局限性,为潜在的改进提供了见解。
Para_02
这一需求在生物医学领域提出了独特的挑战,因为数据标注既昂贵又耗时,并且需要广泛的专业知识。
因此,AI研究人员通常求助于公共数据集,这可能会降低数据质量。
在处理多模态生物医学数据集时,特别是图像-文本对,问题变得更加明显:(1)大多数现有的数据集主要集中在放射学上,导致显著的模态不平衡;以及(2)与未标注或弱标注的生物医学图像和来自PubMed或PubMed Central的可访问生物医学文章相比,详细标注的图像规模仍然有限。
在我们的研究中,我们考虑了多种模态,并确保数据规模足以训练高性能模型。
随着越来越多的生物医学数据被整理并开源,我们可以获得更好的视觉-语义映射(图6)。
Fig. 6: Results of the ablation study on the impact of diversity of pretraining datasets and tasks and a graphical demonstration of BiomedGPT’s design.
a, 排除特定任务的性能比较。使用的指标是放射学VQA、医学语言推理和图像分类的准确性;放射学描述的CIDEr;以及医学问题总结的ROUGE-L。
预训练不使用掩码图像建模,不使用MLM;不使用对象检测,不使用OD。
b, BiomedGPT 在四个数据集上的跨域迁移能力。
RadGPT 是 BiomedGPT 的一个变体,但仅使用放射学数据进行了预训练。
SLAKE-MRI 和 SLAKE-CT 是 SLAKE 数据的特定模式子集。
c, BiomedGPT 在三个放射学模式和数据集上的领域内迁移能力。
d, 描述了 BiomedGPT 预训练和推理中使用的统一词汇表。
通过 Pix2Seq 和字节对编码(BPE)分别实现了边界框和文本的分词。
存在三种类型的标记:位置标记、文本标记和来自冻结预训练标记器(如 VQ-GAN)的图像标记。
还展示了预训练中的掩码图像建模图示,这涉及到通过重建掩码补丁来学习表示。[S] 和 [M] 分别表示起始标记和掩码补丁嵌入。
Para_03
尽管像 CIDEr 和 ROUGE-L 这样的指标可以测量生成内容与黄金标准之间的一致性,并且通常用于模型选择以进一步评估临床适用性,但确保这些输出的事实准确性仍然是一个关注点。
为了解决这个问题,最近的研究引入了 F1-RadGraph 分数,该分数定性地评估生成报告的事实正确性和完整性。
我们预计这些领域会出现类似指标,这些指标将从放射学中开发的事实关注指标中汲取灵感。
这将进一步增强我们衡量人工智能生成的医疗内容在各种生物医学领域中的事实完整性和整体质量的能力。
Para_04
BiomedGPT 目前擅长处理图像和文本,其能力有可能扩展到其他类型的生物医学数据,如视频和时间序列或顺序数据。
例如,我们展示了如何通过在框架中引入三维(3D)图像编码器来扩展 BiomedGPT 处理三维图像的能力(扩展数据表 5 和补充表 4)。
然而,这些扩展引发了对负迁移的担忧,即从额外模态学习可能会无意中损害某些任务的性能。
例如,我们的消融研究表明,在预训练期间排除图像数据可以提高仅使用语言的下游任务的性能(图 6a),这突显了负迁移的风险。
为了缓解这一问题,我们建议探索可控的学习策略,例如专家混合方法。
Para_05
我们综合分析的证据(图3a、b、f和4a-e、h)表明,模型规模的增加与性能提升之间存在直接相关性,适用于零样本预测和微调后的情况。
然而,扩大规模带来了自己的挑战,特别是关于微调效率、训练速度和内存需求的问题。
我们尝试通过探索提示调优来解决BiomedGPT的效率挑战,这向条件冻结的模型中添加了小规模参数。
Para_06
我们的零样本迁移学习测试(图4f-h)表明,与GPT-4V相比,BiomedGPT的文本理解能力尚未完全建立。
造成这一限制的两个主要因素:首先,目前BiomedGPT的规模,尤其是语言骨干部分,受到可用资源的限制,尽管它是可扩展的。
我们的初步观察表明,即使一个模型拥有七十亿参数并且训练有效,在复杂的医疗应用中实现强大的零样本上下文或文本理解仍然具有挑战性。
然而,即使是使用较小规模的模型如BiomedGPT进行微调,也被证明是减轻风险的一种有前景的方法。
其次,使用单个编码器处理多种输入类型使得不同模态表示的分离变得复杂,需要更加精细的训练策略。
Methods
Para_01
BiomedGPT 是一种基于变压器架构,专门为生物医学领域设计,建立在现有通用数据统一模型成功的基础上。
我们遵循统一模型的基本原则:(1)模态无关,(2)任务无关和(3)模态和任务的全面性。
通过将数据离散化为补丁或标记,我们利用 ViT 和语言模型的思想实现了输入-输出的统一。
BiomedGPT architecture
BiomedGPT架构
Para_01
预训练基础模型主要有三种架构:仅编码器、仅解码器和编码器-解码器。
仅编码器模型,如 BERT 及其变体,主要使用变压器的编码器来学习输入数据的表示,并且在微调期间需要额外的模块,如分类头或特定任务的解码器。
这种架构可能难以在明显不同的模态之间对齐输入和输出,限制了其在复杂的零样本预测或生成任务中的能力。
相反,仅解码器模型,如 GPT,完全依赖于变压器的解码器来处理原始文本输入。
虽然在基于文本的任务中表现出色,但它们的架构本身并不具备处理多种模态的能力,通常会导致在学习跨不同数据类型的联合表示方面遇到挑战。
这可能会降低在多模态任务中的灵活性和性能,特别是在生物医学应用中。
因此,我们选择了编码器-解码器架构来设计 BiomedGPT,这种架构更擅长将各种模态映射到统一的语义表示空间,从而增强在更广泛范围内的任务处理能力。
Para_02
BiomedGPT 实现了一个基于 BERT 风格的编码器,用于处理损坏的文本和一个基于 GPT 风格的从左到右自回归解码器。
所有这些模型都依赖于带有流行多头注意力机制的变压器(扩展数据图 3a),这使得模型可以同时关注来自不同表示子空间的信息。
为了提高预训练中的收敛效率和稳定性,我们在每一层添加了三种归一化操作:注意力后的层归一化(LN)、第一次前馈网络(FFN)后的 LN 和自注意力内的逐头缩放(扩展数据图 2b)。
为了编码位置信息,我们为文本和图像分别引入了两组绝对位置嵌入。
我们没有简单地将这些嵌入与令牌和补丁嵌入结合,而是实现了一种解耦方法来分离位置相关性(扩展数据图 3b),这可能会在注意力中引入不必要的随机性,并进一步限制模型的表达能力。
此外,我们还为文本引入了一维相对位置偏置,为图像引入了二维相对位置偏置(扩展数据图 3c),如先前工作所述。
为了研究 BiomedGPT 在不同规模任务上的性能,我们明确设计了三个缩放模型,即 BiomedGPT-S(3300 万参数)、BiomedGPT-M(9300 万参数)和 BiomedGPT-B(1.82 亿参数)。
Unifying input–output
统一输入-输出
Para_01
为了处理多种模态而不依赖于特定任务的输出结构,我们将它们表示为从统一且有限的词汇表中抽取的标记(图 6d)。
为此,我们使用冻结的图像量化和对象描述符分别对目标侧的图像和对象进行离散化。
我们使用 BPE 标记编码文本输出,包括对象标签和摘要。
具体来说,分辨率为 256 × 256 像素的图像被稀疏地编码为 16 × 16 像素的序列,这与相应的补丁高度相关,并能有效减少图像表示的序列长度。
因此,我们为所有多模态输出的标记构建了一个统一的词汇表。
总词汇量为 59,457 个标记,其中包括 50,265 个语言标记、1,000 个位置标记和 8,192 个视觉标记。
视觉标记的数量由在 BiomedGPT 中使用的预训练 VQ-GAN 模型的变体决定;具体来说,我们使用了补丁大小为 8、词汇量为 8,192 的变体。
在训练过程中,我们随机抽取了 196 个图像补丁进行预训练。
Ablation study on modality comprehensiveness
模态全面性的消融研究
Para_01
进行了额外的评估以解决以下问题:‘所提出的模型能否处理未见过的数据模态(例如,来自新的不同成像设备的图像,如超声波)?’
为了调查这一点,我们调整了预训练和下游任务的数据集选择(补充图2b)。
具体来说,我们使用了来自SLAKE和IU X-ray数据集的所有3,489和6,461张胸部X光图像-文本对。
此外,我们从CheXpert中随机选择了7,452张图像,并在预训练期间禁用了MLM和OD以简化过程(补充图2a)。
然后,在X射线模态上预训练的BiomedGPT(记作RadGPT-{size"})在放射学数据集上进行了微调:胸部X光、乳腺超声和肝脏CT(冠状面视图)。
作为比较基线,我们选择了ResNet-50,该模型从零开始在这三个数据集上进行训练。
从结果(图6c)中观察到BiomedGPT具有令人印象深刻的领域内迁移能力:RadGPT-B的表现优于基线,在胸部X光图像分类中达到了93.0%的准确率,提高了7.6%。
然而,对于肝脏CT扫描,我们必须扩大模型规模才能获得与基线相当的结果。这突显了当预训练模型未能学习多样化的医学知识时,医疗应用中领域适应的挑战。
Para_02
具体来说,我们使用来自其他领域的数据集,如血细胞显微镜和皮肤镜检查,对上述预训练模型RadGPT进行了微调,用于图像分类。
此外,我们从SLAKE中选择了仅MRI和仅CT的图像-文本对,并进行了VQA微调。
结果与基准(使用所有模态预训练的原始BiomedGPT-B)进行了比较,并以准确性作为衡量标准。
我们发现,使用我们的模型进行跨模态迁移是可行的,尽管可能存在显著的性能下降。
例如,RadGPT-B在DermaMNIST数据集(皮肤镜检查)上的准确性相比基线降低了8.1%,在SLAKE-CT VQA数据集上则有更大幅度的下降,达到了15.2%。
值得注意的是,与使用包含所有模态的预训练模型进行的先前微调相比,我们必须将训练周期加倍(100次对比50次)。
因此,我们得出结论,模态的全面性对于通用生物医学AI模型促进有效的知识转移至关重要。
Natural language as a task instructor
自然语言作为任务指导者
Para_01
遵循关于使用提示和指令学习的语言模型的文献,并借鉴现有统一框架以消除特定任务模块的做法,我们为每个任务定义了自定义指令,但不包括由其文本输入完全指定的VQA任务。
BiomedGPT 支持多种任务的抽象,包括仅视觉、仅文本和视觉-语言任务,以实现任务的全面性。
我们在以下部分提供了预训练任务、微调任务和推理任务的详细信息,以及相应的指令。
Pretraining tasks
预训练任务
Para_01
在预训练过程中,我们考虑了两个仅视觉的任务:对于MIM和图像填充,我们借鉴了块状掩码的思想,让模型通过生成相应的代码来恢复中间部分的掩码补丁(见图6d)。
对于目标检测,模型学习根据指令‘图像中的物体是什么?’生成物体的边界框。
对于仅文本的任务,我们采用了常用的MLM,其逻辑与MIM相似,但指令是‘‘{Text"}’的完整文本是什么?’。
选择了两种类型的多模态任务,包括带有‘图像描述了什么?’指令的图像标题生成和带有‘{问题"}’指令的VQA。
在BiomedGPT的预训练中加入OD是为了增强视觉学习,这一想法受到了参考文献的启发。
预训练任务的混合是有效的,尤其是在处理多模态输入方面(图6a)。
Fine-tuning and downstream tasks
微调和下游任务
Para_01
除了用于预训练的图像描述和视觉问答之外,我们还涵盖了一个纯视觉任务和两个纯文本任务。