淘天提出视觉锚定奖励，自我校准实现多模态对齐

老马那些事 · 公众号 · · 2025-01-20 17:00

正文

近年来，视觉大模型（Large Vision Language Models, LVLMs）领域经历了迅猛的发展，这些模型在图像理解、视觉对话以及其他跨模态任务中展现出了卓越的能力。然而，随着 LVLMs 复杂性和能力的增长，「幻觉现象」的挑战也日益凸显。

为有效缓解 LVLMs 中的幻觉现象，团队提出了一种创新的令牌级偏好对齐方法（Token Preference Optimization，TPO），针对性设计了一个能够自我校准的视觉锚定奖励信号。

该方法首次在多模态偏好对齐领域实现了自动校准奖励，优化每个令牌生成时与视觉信息的相关性。同时，它也是多模态领域首个无需人工细粒度标注的令牌级偏好优化方法，从而提升了模型的优化效率和自动化水平。

论文标题：Token Preference Optimization with Self-Calibrated Visual-Anchored Rewards for Hallucination Mitigation
作者单位：阿里巴巴淘天集团 & MBZUAI

论文链接：https://arxiv.org/pdf/2412.14487

老刘那些事

2025-1-19

点击下方↓↓查看

本文转载仅供信息分享，不代表本站立场或担保内容真实性。如涉版权等问题，请通知我们删除。本文仅作参考，不构成投资建议。最终解释权归本站所有。

-END-

点击阅读原文进入阿里课程中心