专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
目录
相关文章推荐
51好读  ›  专栏  ›  爱可可-爱生活

主动学习锐化RLHF:用更少标注实现更好对齐 查看图片 //@-20250401075058

爱可可-爱生活  · 微博  · AI  · 2025-04-01 07:50

正文

请到「今天看啥」查看全文


2025-04-01 07:50

主动学习"锐化"RLHF:用更少标注实现更好对齐 查看图片 // @爱可可-爱生活 :本文创新性地提出了基于Sharpe比率引导的主动学习方法 SHARP-DPO,通过风险评估和梯度优化,实现了在 RLHF 中以更少的人工标注数据获得更高模型性能的目标,为降低 RLHF 成本、提升数据效率开辟了新途径。
[LG]《Sharpe Ratio-Guided Active Learning for Preference Optimization in RLHF》S Belakaria, J Kazdan, C Marx, C Cundy... [Stanford University] (2025) 网页链接 #机器学习# #人工智能# #论文# #AI创造营#






请到「今天看啥」查看全文


推荐文章
苏米的星座馆  ·  三妈支招 | 如何应对水星逆行
8 年前
点点星光  ·  元旦,问候
8 年前
鸟哥笔记  ·  "大创意" 务必要注意的3个点
8 年前
药事纵横  ·  常用有机溶剂分类及干燥方法
7 年前