专栏名称: 多知网

专注于报道培训教育领域，有意思，有价值，有细节，有深度

相关文章推荐

老高电商圈子 · 金冠俱乐部焕新：再一次，改变电商 · 12 小时前

妙手跨境 · TEMU全托管在美遭迎头痛击，但我劝你先别急 ... · 20 小时前

蛋先生工作室 · 2025年2月7日最新蛋价（上午） · 昨天

电子商务研究中心 · 脱钩断链！特朗普关税新政将深度冲击跨境电商 ... · 3 天前

网购投诉平台 · 网红模玩博主因涉嫌侵犯著作权罪被批捕 ... · 3 天前

51好读 › 专栏 › 多知网

阿里云通义开源全新数学推理过程奖励模型Qwen2.5-Math-PRM

多知网 · 公众号 · · 2025-01-17 14:05

正文

多知1月17日消息，通义千问Qwen宣布开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM，包括72B和7B两个版本，将提升大型语言模型(LLMs)在数学推理过程中的可靠性和可信度，自动识别推理过程中的错误，如计算或逻辑错误，这些错误可能导致不正确的结论，即使最终答案正确，也可能削弱模型推理过程的可信度。

在识别推理错误步骤能力上，Qwen2.5-Math-PRM以7B的小尺寸超越了GPT-4o。同时，团队还开源了首个步骤级的评估标准 ProcessBench，此项评估标准填补了大模型推理过程错误评估的空白。

据了解，为更好衡量模型识别数学推理中错误步骤的能力，通义团队提出的全新评估标准ProcessBench。该基准由3400个数学问题测试案例组成，其中还包含奥赛难度的题目，每个案例都有人类专家标注的逐步推理过程，可综合全面评估模型识别错误步骤能力。这一评估标准也已开源。