[CL] Towards a Unified View of Preference Learning for Large Language Models: A Survey
网页链接
本文通过模型、数据、反馈和算法四个模块的视角,提出一个统一的框架来理解各种LLM偏好学习方法,为进一步研究奠定基础。
网页链接
本文通过模型、数据、反馈和算法四个模块的视角,提出一个统一的框架来理解各种LLM偏好学习方法,为进一步研究奠定基础。