专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

HuatuoGPT-o1, 采用 LLM 的医学复杂推理

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2025-02-10 11:23

正文

24年12月来自香港中文大学和深圳大数据研究院的论文“HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs”。

OpenAI o1 的突破凸显通过增强推理能力来改进 LLM 的潜力。然而,大多数推理研究都集中在数学任务上,而医学等领域尚未得到充分探索。医学领域虽然与数学不同,但考虑到医疗保健的高标准,它也需要强大的推理能力来提供可靠的答案。然而,与数学不同,验证医学推理具有挑战性。为了解决这个问题,提出可验证的医学问题,并使用医学验证器来检查模型输出的正确性。这种可验证的特性通过两阶段方法推动医学推理的进步:(1)使用验证器指导搜索复杂的推理轨迹以微调 LLM,(2)应用基于验证器的奖励强化学习 (RL) 来进一步增强复杂推理。最后,推出 HuatuoGPT-o1,一种能够进行复杂推理的医学 LLM,它仅使用 40K 个可验证问题就超越一般和医学特定的基线。实验表明,复杂推理可提高医学问题解决能力,并且可从强化学习中获益更多。


OpenAI o1 的发布标志着大语言模型 (LLM) 开发的一个重要里程碑,展示令人印象深刻的功能 [1–3]。这一突破凸显扩展思维链 (CoT) 和强化学习以提高 LLM 性能的潜力 [4–6]。虽然后续研究工作试图复制这些进步,但它们通常仍然局限于数学推理任务 [7–9, 6]。类似 o1 的方法在医学等专业领域的应用仍未得到充分探索。

医疗任务通常涉及复杂的推理 [10–12]。在现实世界的医疗诊断或决策中,医生通常会仔细考虑。这种生命攸关的领域需要细致的思考,以确保更可靠的答案 [13, 14]。此外,医学领域具有独特的优势:与一般领域相比,医学领域的范围通常更窄,更容易验证。此外,医学推理与金融、法律、教育和安全等领域的实际应用非常相似,因此该领域的进步很容易迁移 [15, 16]。

对 o1 的研究 。最近的研究广泛分析 OpenAI o1 的路线图和核心技术 [4, 6, 5],为其架构和方法提供了基础见解。LLaMA-Berry [9]、LLaVA-o1 [40]、o1-Coder [41] 和 Marco-o1 [42] 等扩展已经在数学、视觉语言集成和开放式问题解决等各个领域探索类似 o1 的推理。然而,这些努力尚未解决医学或其他高度专业化领域的应用。相比之下,专注于医学的研究 [2, 43, 14] 突出 o1 在医疗保健环境中进行思维链推理的潜力。同时,出现几个受 o1 启发的模型,如 DeepSeek-R1-Lite-Preview [44]、QwQ [7] 和 Gemini-2.0 Flash Thinking [45]。尽管前景光明,但大多数这些模型仍然是闭源的,为进一步探索和应用 o1 在不同领域的功能留下了大量机会。

医学LLM 。通才LLM的成功激发了人们对开发医学专用LLM在医学领域脱颖而出的兴趣。值得注意的是,MedPaLM 系列 [46, 30] 在 MedQA 基准上的准确率超过 60%,据报道超过人类专家。以前的医学LLM通常遵循两种主要方法 [28]:(1) 提示通才LLM [47, 10, 48, 22, 12]:这种方法采用特定于任务的提示来调整通才模型以用于医学应用。虽然高效且无需训练,但它本质上受到原始 LLM 功能的限制。 (2) 使用医学数据进行进一步训练 [49–52, 34, 35, 53–58]:这涉及在医学预训练语料库或医学说明上训练 LLM,以嵌入医学知识和专业知识。然而,这总是需要大量的计算资源,例如用于 Meditron [59] 和 HuatuoGPT-II [15] 的 14 亿和 30 亿个训练tokens。

增强 LLM 中的推理能力。 思维链 (CoT) 提示增强 LLM 的推理能力 [60, 61],但扩展专家标记的推理路径仍然成本高昂,尤其是对于复杂问题 [62, 63]。为了缓解这种情况,通过外部监督过滤的模型生成的推理路径,提供了部分解决方案 [64, 65],但可扩展性挑战仍然存在 [66, 67]。利用奖励模型或 oracle 函数的强化学习方法显示出潜力,但往往存在处理速度慢、成本高和监督瓶颈等问题 [68, 69]。

复杂推理 。开发具有批判和自我纠正等反思能力的模型已在推理、规划和编码任务中取得成功 [23, 70–74],但在医学等专业领域尚未得到充分探索。虽然提示技术可以产生自我批判推理 [75, 70],但它们在没有可靠的奖励函数或验证器的情况下会举步维艰,尤其是在复杂领域 [76, 77]。微调和强化学习方法提供了解决方案,但需要大量的人工注释或复杂的奖励设计 [78–81]。此外,自我训练方法为开发自我纠正能力提供了一个有希望的方向 [72, 82, 83]。

尽管有特别的优势,但医学推理的一个关键挑战是 验证思维过程 ,而这往往缺乏明确的步骤。受允许通过结果进行验证的数学问题的启发,构建 40K 个可验证的医学问题,这些问题由具有挑战性的封闭式医学考试问题重新格式化。这些可验证的问题具有开放式的特点,具有独特、客观的真实答案,允许 LLM 验证者检查解决方案的正确性。这使得推进医学复杂推理的两阶段方法成为可能:

  • 阶段 1: 学习复杂推理 。通过由验证者反馈(真或假)指导的基于策略搜索构建复杂的推理轨迹。LLM 首先初始化 CoT。如果验证者拒绝当前的 CoT,则模型通过应用从回溯、探索新路径、验证和更正中采样的策略来扩展 CoT,直到提供正确答案。然后使用成功的推理轨迹对 LLM 进行微调,使其发展体现迭代反思的复杂推理技能。

  • 第 2 阶段: 使用 RL 增强复杂推理 。在获得复杂推理技能后,强化学习 (RL) 进一步完善这种能力。具体而言,验证者提供的稀疏奖励使用近端策略优化 (PPO) 算法指导自我改进。

使用这种两个阶段方法,提出 HuatuoGPT-o1,这是一个能够产生长 CoT 的医学 LLM,以识别其错误,尝试不同的策略并改进答案。


受数学问题的启发,数学问题可以通过最终结果来验证解决过程,本文目标是创建可验证的医学问题,通过结果来验证推理。这些可验证问题的特点是开放形式,具有独特、客观的地面实况答案,如图所示:


从医学考试题目中获取数据 。为实现此目的,用封闭式真实世界考试题目,主要有两个原因:1) 有大量医学考试题目可供选择;2) 这些考试题目通常客观准确。具体来说,从 MedQA-USMLE [17] 和 MedMcQA [18] 的训练集中收集了 192K 道医学多项选择题。

转化为可验证的医学问题 。然而,这些医学问题是封闭式的,这意味着它们提供的选项有限。这使得模型很容易在没有适当推理的情况下猜出正确答案。此外,有些问题不适合,因为它们可能缺乏唯一的正确答案来验证,或者太简单而不需要推理。

为此如下工作选择和处理问题。

  • 1. 选择有挑战性的问题 。删除三个小型 LLM(Gemma2-9B [19]、LLaMA-3.1-8B [20]、Qwen2.5-7B [21])都回答正确的问题,并丢弃简短的问题以保留那些需要更深层次推理的问题。

  • 2. 确保答案唯一 。排除要求“错误选项”或有多个正确答案的问题。进一步使用 LLM(GPT-4o)来删除正确答案可能不唯一或可能含糊不清的问题。

  • 3. 重新格式化为开放式形式 。使用 LLM(GPT-4o),将每个封闭集问题重新格式化为开放式问题 x 和真实答案 y∗,如上图所示。

开发医学验证器 。针对这些可验证问题,提出一个验证器来评估模型输出的正确性。给定一个医学可验证问题 x,该模型会生成一个思维链 (CoT) e 和一个结果 y。验证器会根据真实答案 y∗ 检查 y,并提供二元反馈:正确/错误。

这种反馈对于建立正确的推理轨迹和提高推理性能至关重要。用 GPT-4o [22] 作为验证器,提示它进行验证。鉴于医学领域别名的普遍性,数学中常用的精确匹配方法 [8, 23] 是不切实际的。

训练 LLM 。进行医学复杂推理以识别错误,并使用深度思考来完善答案。如图所示,该方法分为两个阶段:第一阶段:掌握复杂推理;第二阶段,使用强化学习 (RL) 增强复杂推理。


第一阶段:学习复杂推理

寻找正确的轨迹。 给定一个可验证的医学问题作为二元组 (x, y∗),即(问题,真实答案),LLM(例如 GPT-4o)生成初始 CoT e/0 和答案 y/0。验证者检查 y/0 是否与 y∗ 匹配。如果不正确,模型会通过对先前的想法 [e/0, y/0, . . . , e/i−1, y/i−1] 应用随机选择的搜索策略 k 来迭代细化答案,产生新的推理 e/i 和新的答案 y/i。

如下定义四种搜索策略 K 来指导细化过程:

  1. 探索新路径 。LLM 探索一种新方法 e/i ,不同于先前的 e/0 ,... ,e/i−1 ,以得出新的答案 y/i 。

  2. 回溯 。LLM 重新审视先前的推理过程 e/j , y/j ,其中 j < i − 1,并从那里继续推理。请注意,只有当 i ≤ 2 时才会对回溯进行采样。

  3. 验证 。LLM 评估当前推理 e/i−1 和结果 y/i−1,提供验证过程 e/i 和验证结果 y/i 。







请到「今天看啥」查看全文