专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
目录
相关文章推荐
黄建同学  ·  正好看到一篇内容讲AI Agents: ... ·  1 周前  
51好读  ›  专栏  ›  爱可可-爱生活

本文提出了一种受经济学效用理论启发的Inada奖励转换方法(IR-20250115061913

爱可可-爱生活  · 微博  · AI  · 2025-01-15 06:19

正文

2025-01-15 06:19

本文提出了一种受经济学效用理论启发的Inada奖励转换方法(IRT),通过非线性地调整不同奖励维度的得分,克服了传统线性聚合方法的不足,在提升语言模型无害性的同时,保持了其有益性,显示了经济学理论在AI对齐问题上的潜力。
[LG]《Utility-inspired Reward Transformations Improve Reinforcement Learning Training of Language Models》R Maura-Rivero, C Nagpal, R Patel, F Visin [Google DeepMind] (2025) 网页链接 #机器学习##人工智能##论文##AI创造营#