专栏名称: PaperWeekly
PaperWeekly是一个分享知识和交流学问的学术组织,关注的领域是自然语言处理的各个方向。我们热爱知识,分享知识,希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。
目录
相关文章推荐
研之成理  ·  天津大学彭文朝团队ACS Catal: ... ·  昨天  
社会学研究杂志  ·  贺新年 | 《社会学研究》致谢2024年外审专家 ·  昨天  
PaperWeekly  ·  ICLR 2025 | ... ·  4 天前  
51好读  ›  专栏  ›  PaperWeekly

ICLR 2025 | 自动化所、旷视等提出Ross,多模态大模型的MAE时刻来了?

PaperWeekly  · 公众号  · 科研  · 2025-01-25 20:05

正文

「Vision-Centric Supervision」Matters in Large Multimodal Models!


今天介绍我们在多模态大模型领域的一篇原创工作。目前 Ross 已被 ICLR 2025 接收,相关代码已开源,有任何问题欢迎在 GitHub 提出。


论文标题:
Reconstructive Visual Instruction Tuning

论文链接:

https://arxiv.org/pdf/2410.09575

项目主页:

https://haochen-wang409.github.io/ross/

代码链接:

https://github.com/haochen-wang409/ross

Huggingface Checkpoint:

https://huggingface.co/HaochenWang/ross-qwen2-7b


我们针对多模态大模型的视觉部分设计了重建原图形式的监督信号,该监督能够显著提升模型细粒度理解能力以及减轻幻觉。我们认为这是多模态大模型的 MAE 时刻,如何针对多模态大模型设计更好的 visual pre-text task 是后续研究的重点。



Motivation

在当今的多模态学习领域,多模态大模型尽管希望处理的是视觉数据,但其核心训练过程却几乎完全依赖于文本监督,即 “images --> CLIP --> LLM <== text supervision” 的架构。


这种做法缺乏对原始视觉信号的充分利用,模型的性能也很大程度上受限于被视觉表征的好坏。


为了突破这一瓶颈,我们提出了一种全新的方法——Reconstructive Visual Instruction Tuning(Ross)


Ross 引入了视觉监督。它让大型多模态模型(LMMs)直接从输入图像中学习,通过重构图像来指导自身的优化过程。这种方式不仅充分利用了图像本身的丰富细节,还能够显著提升模型对细粒度视觉特征的理解能力。



Method

既然输入的图像本身就蕴含着大量的细节信息,为什么不直接利用它们来指导模型的学习呢?通过重构输入图像作为监督信号,我们鼓励模型保持对低级细节的关注,从而增强了其细粒度的理解能力,并减少了幻觉现象的发生。

▲ Overview of Ross.

上图展示了 Ross 的 high-level idea。不同于传统的多模态大模型只利用了右半部分的 text supervision,Ross 引入了左半部分的 visual supervision。


在这个过程中,自然图像的空间冗余性,难以为 LLM 直接提供有意义的监督信号。为此,我们系统性地研究了(1)重建目标(2)重建损失,最终得到了一个巧妙的解决方案:采用去噪目标来重构隐特征,如下图所示。



Experiments

▲ Ross 在不同的 visual backbone + LLM 上,在多数情况都能获得显著的性能提升,特别是在 MMVP 这类细粒度理解任务上
▲ Ross 与 SOTA 方法的比较,仅仅使用一个 SigLIP,Ross 就能超越 Cambrian-1-8B 这个合并了 CLIP+SigLIP+ConvNeXt+DINOv2 的方法
▲ 引入 anyres 技巧后,Ross 在高分辨率 benchmark 上也能取得优越的性能


In-Depth Analysis

绝对的数字并不是最关键的,我们更应该关注为什么 Ross 这类视觉监督能 work。我们得出了以下的结论:


引入视觉监督能带来更高的 attention values,多模态大模型更加看图了:

▲ Ross 和 LLaVA 对于视觉 token 的 attention value 对比,Ross 的 attention values 显著高于 LLaVA 的


引入视觉监督能带来更合理的 attention map,多模态大模型更能关注到正确的区域:

▲ Ross 对 visual tokens 的 attention map 更合理,更能关注到问题相关的区域

引入视觉监督能让模型的特征包含足够的细粒度信息,把 frozen Ross-7B 的 feature 作为 condition,仅将 denoiser 在 ImageNet-1K 上 fine-tune 5 个 epoch,就能重建出图!

▲ 原图 (左) 和重建结果 (右)。Ross-7B 的特征可以被完美的映射回 RGB space!


其中,最后一点是我们认为最有趣的发现,该结果表明,image --> SigLIP --> Qwen2 之后得到的特征,通过 Ross 这样的训练后,竟然还能被映射回原始的 RGB pixel space。这说明 Ross 对于图像信息的压缩较少,保留了细粒度理解所需要的细节信息。



Discussion and Future Work

我们认为 Ross 的成功,是多模态大模型的 MAE 时刻,如何针对多模态大模型设计更好的 visual pre-text task 将是后续研究的重点,LMM 的范式不应该只是 text 端的 next-token-prediction!


当然,Ross 还有很多非常 straightforward 的拓展,例如拓展至生成领域,真正做到生成帮助理解。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·