专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
目录
相关文章推荐
爱可可-爱生活  ·  deepseek R1 使用的 GRPO ... ·  昨天  
新智元  ·  闲来无事,我测了测国产大模型的RAG能力 ·  2 天前  
宝玉xp  ·  回复@Ant-Master:o1 ... ·  2 天前  
宝玉xp  ·  //@程序员邹欣://@meow_lo:un ... ·  3 天前  
爱可可-爱生活  ·  早! #早安# -20250125054526 ·  4 天前  
51好读  ›  专栏  ›  爱可可-爱生活

TPO 提出了一种在推理时通过文本反馈迭代优化 LLM 输出以对-20250124054013

爱可可-爱生活  · 微博  · AI  · 2025-01-24 05:40

正文

2025-01-24 05:40

TPO 提出了一种在推理时通过文本反馈迭代优化 LLM 输出以对齐人类偏好的创新框架,令人惊讶地发现未经对齐的模型通过少量测试时优化步骤即可超越训练时对齐的模型,揭示了利用 LLM 内在能力进行高效、轻量级偏好对齐的新途径。
[CL]《Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback》Y Li, X Hu, X Qu, L Li... [Shanghai AI Laboratory] (2025) 网页链接 #机器学习##人工智能##论文##AI创造营#