专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
目录
相关文章推荐
新智元  ·  Claude 3.7 ... ·  20 小时前  
爱可可-爱生活  ·  【[96星]HOVER:为机器人运动控制提供 ... ·  21 小时前  
爱可可-爱生活  ·  【KV-Edit:无需训练的图像编辑工具,精 ... ·  21 小时前  
机器之心  ·  刚刚,DeepSeek开源MoE训练、推理E ... ·  昨天  
51好读  ›  专栏  ›  爱可可-爱生活

【[109星]PRefLexOR:基于偏好的递归语言建模,为推理-20250226133309

爱可可-爱生活  · 微博  · AI  · 2025-02-26 13:33

正文

2025-02-26 13:33

【[109星]PRefLexOR:基于偏好的递归语言建模,为推理优化带来革新!亮点:1. 通过迭代推理改进,模型自主学习提升决策能力;2. 结合ORPO和DPO技术,显著提升推理质量;3. 动态生成任务和反馈,无需预生成数据集,实时适应性强】
'PRefLexOR: Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning'
GitHub: github.com/lamm-mit/PRefLexOR
#推理优化# #语言建模# #动态学习# #AI创造营#






请到「今天看啥」查看全文