专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

超越DeepSeek V3！Ai2再祭开源杀器Tülu 3，强化学习打破性能瓶颈

新智元 · 公众号 · AI · 2025-02-05 12:48

正文

编辑：peter东乔杨

2024年11月，艾伦人工智能研究所（Ai2）推出了Tülu 3 8B和70B，在性能上超越了同等参数的Llama 3.1 Instruct版本，并在长达82页的论文中公布其训练细节，训练数据、代码、测试基准一应俱全。

论文链接：https://arxiv.org/pdf/2411.15124

1月30日，更大杯的Tülu 3 405B震撼登场。

Tülu 3 405B在许多标准的基准测试中均实现了与Deepseek v3和GPT-4o相当或更优的性能，而且也超越了许多先前发布的后训练开源模型（同等参数规模），包括Llama 3.1 405B Instruct和Nous Hermes 3 405B。

各项基准结果比较，最后一列是强化学习优化过的Tülu 3 405B的表现，在多项指标上超越了Deepseek V3

不过在官网提供的体验版上试了试，效果也并不是那么好，对于经典的数Strawberry中有几个r的问题，Tülu 3同样扑街，不过之后需要推理的问题，模型倒是给出了正确的回答思路。

demo传送门：https://playground.allenai.org/

至于其生成出的一些与蛇相关的格言，大多都没有理解传统文化中「蛇」的寓意，显得牛头不对马嘴。

对于想体验本地大模型的读者，Tülu 3 8B和70B已支持ollama下载，可以方便地集成使用，相信405B也会尽快上线ollama平台。

Tülu 3的炼丹术如何

早期的语言模型后训练工作遵循了由InstructGPT等模型开创的标准方法，包括指令微调（instruction-tuning）和偏好微调（preference fine-tuning）。

自此以后，后训练方法的复杂性和精密度不断增加，但大多数成功的后训练模型对其训练数据、代码或训练方法的披露非常有限。在众多后训练研究中，Ai2罕见地选择了完整发布训练数据、方法和研究成果，包括最新的Tülu 3在内。

仓库地址：https://github.com/allenai/open-instruct

Tülu 3的全部构建流程如下图所示，包括主要包括数据、训练和评估三部分。

Tülu 3项目始于确定通用语言模型的关键期望能力，包括知识、推理、数学、编程、指令遵循、日常聊天和安全性。

其中最关键的模型训练，是在预训练语言模型（即Llama 3 Base）的基础上采用四阶段后训练配方，四阶段依次是：

1）精心策划和合成式提示（prompt）；其使用的提示词来源如下：

2）在精心挑选的提示词以及相应生成内容的混合数据集上进行监督微调，以针对核心技能优化模型；同时为了保证模型安全性，使用如下带有攻击性提示词的数据，训练Tülu 3让其尽可能不会被攻破。

3）结合离线和在线策略偏好数据以应用偏好微调；

具体来说，就是在之前提示词的基础上，再生成一些不同的新提示词，通过22种开源大模型生成回答，让GPT-4o对各模型给出的回答在有用程度、真实性、诚实性及指令遵循上的表现进行打分，决定是否接受该回答作为训练数据。

4）一种新的基于强化学习（RL）的方法，通过可验证奖励来增强特定技能；

具体来说，Tülu 3使用了一种独创的后训练方法，称为：可验证奖励强化学习（Reinforcement Learning from Verifiable Rewards，简称RLVR），流程图如下所示。

这种新的训练方法专门针对具有可验证结果的任务，例如数学问题求解和指令遵循问题。根据训练数据和提示词，明确判断问题是否完成，从而更新策略函数。