专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
目录
相关文章推荐
宝玉xp  ·  转发微博-20250103011810 ·  昨天  
爱可可-爱生活  ·  【Advent of Code ... ·  昨天  
爱可可-爱生活  ·  《爱可可微博热门分享(1.1)》 ... ·  2 天前  
爱可可-爱生活  ·  今日推介(第1637期):通过焦点化稀疏高斯 ... ·  3 天前  
51好读  ›  专栏  ›  爱可可-爱生活

本文提出了一个名为InfAlign的推理感知语言模型对齐框架,通-20241231050927

爱可可-爱生活  · 微博  · AI  · 2024-12-31 05:09

正文

2024-12-31 05:09

本文提出了一个名为InfAlign的推理感知语言模型对齐框架,通过对奖励函数进行转换,能够针对特定的推理时程序优化模型胜率,并提供了一个实用的算法CTRL,实验证明其优于现有方法;特别地,发现BoN和WoN的最优奖励转换独立于基本策略和奖励模型,以及标准胜率优化对于推理时胜率是次优的,这些观点颇具启发性。
[LG]《InfAlign: Inference-aware language model alignment》A Balashankar, Z Sun, J Berant, J Eisenstein… [Google DeepMind & Google Research] (2024) 网页链接 #机器学习##人工智能##论文##AI创造营#