专栏名称: 多知网
专注于报道培训教育领域,有意思,有价值,有细节,有深度
目录
相关文章推荐
老高电商圈子  ·  金冠俱乐部焕新:再一次,改变电商 ·  12 小时前  
老高电商圈子  ·  金冠俱乐部焕新:再一次,改变电商 ·  12 小时前  
妙手跨境  ·  TEMU全托管在美遭迎头痛击,但我劝你先别急 ... ·  20 小时前  
妙手跨境  ·  TEMU全托管在美遭迎头痛击,但我劝你先别急 ... ·  20 小时前  
蛋先生工作室  ·  2025年2月7日最新蛋价(上午) ·  昨天  
电子商务研究中心  ·  脱钩断链!特朗普关税新政将深度冲击跨境电商 ... ·  3 天前  
网购投诉平台  ·  网红模玩博主因涉嫌侵犯著作权罪被批捕 ... ·  3 天前  
51好读  ›  专栏  ›  多知网

阿里云通义开源全新数学推理过程奖励模型Qwen2.5-Math-PRM

多知网  · 公众号  ·  · 2025-01-17 14:05

正文

多知1月17日消息,通义千问Qwen宣布开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,包括72B和7B两个版本,将提升大型语言模型(LLMs)在数学推理过程中的可靠性和可信度,自动识别推理过程中的错误,如计算或逻辑错误,这些错误可能导致不正确的结论,即使最终答案正确,也可能削弱模型推理过程的可信度。


在识别推理错误步骤能力上,Qwen2.5-Math-PRM以7B的小尺寸超越了GPT-4o。同时,团队还开源了首个步骤级的评估标准 ProcessBench,此项评估标准填补了大模型推理过程错误评估的空白。


据了解,为更好衡量模型识别数学推理中错误步骤的能力,通义团队提出的全新评估标准ProcessBench。该基准由3400个数学问题测试案例组成,其中还包含奥赛难度的题目,每个案例都有人类专家标注的逐步推理过程,可综合全面评估模型识别错误步骤能力。这一评估标准也已开源。




《教育科技这一年·2022》+






请到「今天看啥」查看全文