专栏名称: 知识图谱科技

务实的人工智能布道者。跟踪介绍国内外前沿的认知智能技术(知识图谱，大语言模型GenAI)以及医药大健康、工业等行业落地案例，产品市场进展，创业商业化等

华佗GPT-o1：专为高级医学推理而设计的医学大模型 - 香港中文大学、深圳大数据研究院

知识图谱科技 · 公众号 · · 2025-01-09 07:40

正文

摘要

医疗人工智能（AI）前景广阔，但也面临着一系列挑战。与简单的数学问题不同，医疗任务通常需要更深层次的推理来支持现实世界的诊断和治疗。医疗场景的复杂性和可变性使得难以有效地验证推理过程。因此，现有的特定于医疗保健的大型语言模型（LLM）往往无法提供高风险应用程序所需的准确性和可靠性。弥合这些差距需要创造性的方法来训练数据和模型设计——华佗GPT-o1 旨在实现这一努力。

什么是华佗GPT-o1？

来自香港中文大学和深圳大数据研究院的研究团队推出了华佗GPT-o1：一种旨在增强医疗保健领域推理能力的医学大模型。它是使用 40,000 个精心策划和可验证的医疗问题的数据集构建的。该模型通过遵循两个阶段的学习过程，优于通用和特定领域的 LLM。首先，它通过反馈驱动的迭代来培养复杂的推理技能。其次，它通过强化学习(RL) 来完善这些技能。这种双重方法使华佗GPT-o1 能够创建详细的思维链(CoT)，迭代提炼其答案，并将其解决方案与可验证的结果保持一致。这些功能使其成为应对医学推理复杂挑战的重要工具。

https://arxiv.org/abs/2412.18925

https://github.com/FreedomIntelligence/HuatuoGPT-o1

	骨干	支持的语言
HuatuoGPT-o1-8B	LLaMA-3.1-8B	英语
HuatuoGPT-o1-70B	LLaMA-3.1-70B	英语
HuatuoGPT-o1-7B	Qwen2.5-7B	英文 & 中文
HuatuoGPT-o1-72B	Qwen2.5-72B	英文 & 中文

核心速览

研究背景

研究问题：这篇文章要解决的问题是如何利用大型语言模型（LLMs）进行医学复杂推理。尽管OpenAI的o1模型在数学任务上取得了显著进展，但在医学领域的应用仍然不足。
研究难点：医学领域需要强大的推理能力来提供可靠的答案，但由于医学推理过程缺乏明确的步骤，验证医学推理比数学推理更具挑战性。
相关工作：OpenAI的o1模型展示了通过链式思维（CoT）和强化学习（RL）提升LLM性能的潜力。然而，现有研究大多集中在数学任务上，医学领域的应用尚未得到充分探索。

研究方法

这篇论文提出了一种基于可验证医学问题和医学验证器的两阶段方法，用于提升医学复杂推理能力。具体来说，

构建可验证的医学问题：首先，从医学考试问题中构建40K个可验证的医学问题。这些问题被格式化为开放式问题，并带有唯一的客观正确答案。
医学验证器：提出了一个基于GPT-4o的医学验证器，用于检查模型输出的正确性。验证器返回二元反馈（True或False），以指导模型的推理路径。
第一阶段：学习复杂推理：使用策略搜索和验证器反馈来指导LLM生成复杂的推理轨迹。LLM首先生成一个初始的链式思维（CoT），然后通过回溯、探索新路径、验证和修正等策略逐步改进答案，直到答案被验证为正确。
第二阶段：通过RL增强复杂推理：在获得复杂推理技能后，使用PPO算法和验证器提供的稀疏奖励进一步精炼推理能力。具体来说，RL的目标函数结合了正确回答的奖励和策略之间的Kullback-Leibler散度（KL散度）。

实验设计

数据收集：从MedQA-USMLE和MedMCQA训练集中构建了40K个可验证的医学问题。其中20K用于第一阶段的监督微调（SFT），20K用于第二阶段的RL训练。此外，还添加了4K个未转换的数据和5K个通用验证问题以增强泛化能力。
模型训练：基于LLaMA-3.1-8B-Instruct和LLaMA-3.1-70B-Instruct分别训练了HuatuoGPT-o1-8B和HuatuoGPT-o1-70B模型。在第一阶段，模型在SFT数据上进行3轮微调，学习率为5e-6，批量大小为128。在第二阶段，使用PPO算法进行RL训练，学习率为5e-7，批量大小为128，KL散度系数为0.03。
基准模型：比较了多种开源LLMs，包括通用LLMs（如Qwen-2.5、LLaMA-3.1、Gemma 2）和医学特定LLMs（如UltraMedical、OpenBioLLM、BioMistral）。

结果与分析

主要结果：HuatuoGPT-o1模型在所有医学基准测试中表现出色。8B版本在整体评估中比基线模型提高了8个百分点，70B版本则超过了其他开源LLMs。与仅进行微调的方法相比，两阶段训练策略显著提高了性能。
消融研究：

简单多选题训练效果不佳，仅学习正确答案无法提高问题解决能力。
复杂链式思维（CoT）显著提高了性能，平均提高了4.3个百分点。
复杂CoT比简单CoT和没有CoT的RL增强效果更好，平均提高了3.6个百分点。
PPO算法在RL中表现最佳，其次是RLOO和DPO。

验证器可靠性：手动验证了200个评分实例，GPT-4o在第一阶段的准确率为96.5%，在第二阶段的准确率为94.5%。相比之下，精确匹配方法的准确率较低。

领域兼容性：将方法应用于中文医学领域，构建了40K个可验证的中文问题，并训练了HuatuoGPT-o1-7B-zh模型。结果显示，该模型在多个中文医学基准测试中表现优于其他中文LLMs。

技术进步

华佗GPT-o1 的发展带来了几项重大进步。用于训练的数据集来自具有挑战性的体检，转化为具有独特、客观答案的开放式问题。由 GPT-4o 提供支持的医学验证器检查解决方案的正确性，使模型能够开发稳健的推理路径。在微调过程中，这些路径被整合到模型中，鼓励反思和迭代思考。

在第二阶段，采用强化学习——特别是近端策略优化（PPO）——来进一步改进模型。来自验证器的稀疏奖励指导了这个过程，帮助华佗GPT-o1 提高了推理的准确性。这种循序渐进的问题解决方法可确保模型能够有效地处理实际医疗应用的需求。

性能和结果

华佗GPT-o1 在各种基准测试中都显示出令人印象深刻的结果。80 亿个参数版本比其基线提高了 8.5 个百分点，而 700 亿个参数版本在 MedQA 和 PubMedQA 等数据集上的表现优于顶级医学特定 LLM。它在传统数据集和复杂数据集上都表现良好，这凸显了其强大的推理能力。

消融研究强调了模型两阶段训练过程的重要性。跳过强化学习的模型表现出较弱的性能，突出了验证者引导的 CoT 和 RL 增强的价值。此外，医疗验证器表现出强大的可靠性，在培训的第一阶段就达到了 96.5% 的准确率，这证明了它在整个流程中的关键作用。

总体结论

这篇论文通过构建可验证的医学问题和医学验证器，提出了一种两阶段训练方法，成功提升了医学复杂推理能力。HuatuoGPT-o1模型在多个医学基准测试中表现出色，验证了复杂推理的有效性和RL增强的优越性。该方法不仅适用于医学领域，还可以扩展到其他专业领域，推动领域特定推理能力的提升。

华佗GPT-o1 代表了医疗 AI 向前迈出的有意义的一步。通过将高级推理技术与结构化训练过程相结合，它解决了推理和验证中长期存在的挑战。它的成功是通过相对较小的数据集实现的，凸显了深思熟虑的训练方法的影响。随着人工智能在医疗保健领域的不断发展，像华拓GPT-o1这样的模型有可能提高诊断准确性和治疗计划，为该领域的未来发展树立标杆。

论文评价

优点与创新

首次提出使用可验证的医学问题来提升LLM的医学复杂推理能力：该研究首次提出了利用可验证的医学问题和医学验证器来提升大型语言模型（LLM）在医学领域的复杂推理能力。
提出两阶段训练方法：结合了搜索策略来构建推理路径用于微调，并通过基于验证器的强化学习进一步增强了复杂推理能力。
开发了HuatuoGPT-o1 ：首个能够进行复杂推理的医学LLM，在多个医学基准测试中表现优异。
实验结果表明复杂推理在医学问题解决中具有显著优势：复杂推理不仅提升了医学问题的解决能力，还显著提高了基于验证器的强化学习的性能。
验证器的可靠性：使用GPT-4o作为验证器，验证了其在不同阶段的准确性，展示了其可靠性。
跨领域适应性：在中国医学领域的额外验证显示了该方法在其他领域的适应性。

不足与反思

模型的局限性：尽管HuatuoGPT-o1具有强大的复杂推理能力，但仍可能产生包含幻觉或不准确内容的结果，因此目前不适合用于实际临床或其他高风险行业应用。
下一步工作：未来的研究可以进一步探索如何在保证模型准确性的前提下，逐步放宽对模型使用的限制，以便在实际应用中发挥其潜力。

关键问题及回答

问题1：论文中提出的两阶段训练方法具体是如何进行的？各阶段的详细步骤是什么？

第一阶段：学习复杂推理。具体步骤如下：

初始化CoT ：给定一个可验证的医学问题，LLM生成一个初始的Chain-of-Thought（CoT）和答案。
验证反馈：验证器检查当前答案是否正确。如果错误，模型进入下一步。
策略搜索：模型通过回溯、探索新路径、验证和修正等策略扩展CoT，直到提供正确答案。
构建SFT数据：成功的推理轨迹被重新格式化为复杂的CoT，用于微调LLMs。

第二阶段：通过强化学习（RL）增强复杂推理。具体步骤如下：

初始化RL模型：使用微调后的模型作为初始策略模型。
生成响应：策略模型生成响应，验证器评估响应的正确性并返回奖励。
计算奖励：奖励函数结合了正确性奖励和KL散度奖励，以稳定训练。
RL训练：采用PPO算法进行RL训练，优化模型参数。

问题2：论文中提到的医学验证器是如何工作的？其准确性如何？

医学验证器基于GPT-4o构建，用于检查模型输出的正确性。具体工作流程如下：

输入输出：验证器接收模型生成的响应和真实答案。
二元反馈：验证器根据响应和真实答案的比较结果返回二元反馈（True或False）。

验证器的准确性在第一阶段和第二阶段分别为96.5%和94.5%。这表明验证器能够可靠地评估模型输出的正确性，为模型的推理路径提供有效的指导。

问题3：实验结果表明，HuatuoGPT-o1模型在不同医学基准上的表现如何？与其他模型相比有何优势？

主要结果：HuatuoGPT-o1模型在所有数据集上表现出色。8B版本在整体评估中比基线模型提高了8个百分点，70B版本则超过了其他开源LLMs。与仅进行微调的方法相比，两阶段训练策略显著提高了性能。
消融研究：

简单多选题训练效果不佳，仅学习正确答案无法提高问题解决能力。
复杂CoT显著提高了性能，平均提高了4.3个百分点。
复杂CoT在RL增强方面表现更好，平均提高了3.6个百分点。
PPO在RL算法中表现最佳，其次是RLOO和DPO。

领域兼容性：将方法应用于中文医学领域，构建了一个40K的可验证中文问题数据集，并训练了HuatuoGPT-o1-7B-zh模型。结果显示，该模型在多个中文医学基准上表现优于其他中文LLMs。

总体而言，HuatuoGPT-o1模型通过两阶段训练方法和复杂的推理路径，显著提升了医学复杂推理能力，并在多个医学基准上取得了优异的表现。

参考文献: