专栏名称: PaperWeekly
PaperWeekly是一个分享知识和交流学问的学术组织,关注的领域是自然语言处理的各个方向。我们热爱知识,分享知识,希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。
目录
相关文章推荐
NaturePortfolio  ·  中国作者2024年度高引用量OA论文Top1 ... ·  昨天  
募格学术  ·  清华大学最新 Nature ·  2 天前  
研之成理  ·  大连理工大学王敏教授团队ACS ... ·  3 天前  
51好读  ›  专栏  ›  PaperWeekly

阶跃多模态团队提出「慢感知」概念:迈向视觉system2 (o1) 的第一步

PaperWeekly  · 公众号  · 科研  · 2025-01-23 13:42

正文

 

论文标题:

Slow Perception: Let's Perceive Geometric Figures Step-by-step

论文地址:

https://arxiv.org/abs/2412.20631

开源地址:

https://github.com/Ucas-HaoranWei/Slow-Perception



前言

慢感知是 StepFun 多模态团队对视觉 system2 的初步探索。研究人员认为:1)目前多模领域 o1-like 的模型,主要关注文本推理,对视觉感知的关注不够;2)精细/深度感知是一个复杂任务,且是未来做视觉推理的重要基础。

而思想之一是如何把感知做“慢”,即通过某种任务拆解(step-by-step)实现感知层面的 inference time scaling。这里有个简单的例子:
题目是:按照螺旋线的顺序,报出每个字母。这是一道5岁小孩的测试题,但是目前国内外还没有一个多模模型能够正确解答。

该题让人来做的话,会先感知并 trace 这条螺旋线,在 attention 到字母的位置将其记录下来,越靠近螺旋线中心,字母挨得会近一些,我们 trace 的速度也会更慢一点,即申请一部分额外“推理计算量”,以保证不会出错。

很明显,这是典型的视觉 o1 任务,且该过程似乎不太需要偏文本的做题式“思考”,它更偏向于深度“感知”。


基于以上分析,研究人员提出了慢感知(slow perception)的概念,主要想传达的是,不仅思考需要慢下来,感知同样需要。作者选择几何 parsing 任务对慢感知进行初步建模,原因主要有三点:


1)文本 reasoning 向的多摸态 o1-like 模型经常 pr 做几何题,但如果模型连准确地copy几何都做不到,怎么可能真正理解几何内部复杂的点线关系;


2)几何 parsing 任务其实足够难,一直被大家 overlook,目前国内外没有一个多模态大模型能做好这件感知任务;


3)几何图形是人对自然场景的抽象,想把 system2 视觉模型做 general,总得先从描一根线开始。

▲ 图1. 慢感知的两个阶段:感知分解和感知流动



方法&实验

慢感知(slow perception)分为两个阶段:


第一阶段称为感知分解(perception decomposition),该过程将几何图形分解为基本的形状单元 ——线:不管是几边形,都是由最基本的线构成。这样做的好处是可以统一复杂的几何表征,一定程度上避免多峰优化问题。如图 1 中有 8 个三角形,而且互相嵌套,直接让模型写 matplotlib/tikz 代码都会遇到多峰问题。这一阶段的目的是“化繁为简”。


第二阶段,作者称为感知流动(perception flow)。人在 trace 一条线的时候,尤其是长线,很难一笔到位,即对于长程依赖的感知决策,不太会出现 1-hop-1-decision,对模型来说也是一样。作者受人使用尺子配合眼动的描线过程启发(如图1下),提出了 perception flow。


具体地,模型基于一个虚拟的感知尺(perceptual ruler),从线段的初始点逐步描向终止点。作者把“眼动”过程中停留的位置称为 gaze(凝视点),对于一条长于感知尺的线段,整个感知过程被建模为在一个决策点通过多次眼跳到达下一个决策点的过程(multi-hop-1-decision)。

感知尺的长度在一次训练中是固定的,这样短线和长线的推理计算量变得不同,这更符合直觉与上文的分析。当然感知尺长度在训练前可以随意设置,作者发现其长度设置的越短,几何解析的性能越好。感知尺短说明模型描一条线用的推理计算量大,即慢感知建模方案存在感知层面的 inference time scaling。

▲ 表1. 慢感知性能

▲ 图2. 慢感知inference scaling

如上表 1 所示,baseline 代表感知尺无限长,即所有线段均从初始点直接预测终止点。n-length 代表感知尺长度为 n,n 是 matplotlib 绘制距离,所有几何图形绘制在 -10 到 10 的坐标系中。

可以看到感知尺长度从 12 到 4,所有指标(包括 F1,Precision,Recall)都在上涨。感知尺越短,描一根线的停顿(gaze 点)越多,计算量越大,inference time 也会越久。图 2 展示了慢感知 inference time scaling 的趋势。

▲ 图3. 抖动凝视(gaze)点

为了验证感知流动是否依赖精准的凝视(gaze)点,作者抖动了 gaze 点真值进行训练和测试,对比结果如图 3 所示。

可以看到即便是基于抖动过的 gaze 点,模型性能依旧远高于 baseline(56.6% F1 vs. 51.4% F1),也仅比不抖动的情况低了 1%:慢感知最关键的是要建模一种从初始决策点到下一个决策点感知的正确流向,而中间的具体过程可能没有那么关键。这一结论会大大降低将该方法用在通用场景上的标注难度。

▲ 图4. 可视化结果

更多可视化结果如图 4 所示,左边是输入,中间是 slow perception 每一笔的可视化,笔画顺序用彩虹色(红-橙-黄-绿)表示,最后一栏是最终几何解析的效果。

▲ 图5. 几何解析结果最终比较

不同多模态大模型几何解析能力对比如图 5 所示,可以看到慢感知建模方案使得模型对几何线段的感知能力更强。更多有趣的结论和效果请看原文https://arxiv.org/abs/2412.20631。


结论

当前基于 system1 感知的多模态大模型,看图过轻,感知不够精细,这限制了其进一步发展:当我们拿着一张片子给医生看,而医生不到 1 秒钟就看完了,告诉你啥事没有,我们会请他再看看,要求他看的再仔细点。

LVLM 想要有更多的落地场景,system2 感知能力是第一步,感知要慢下来。slow perception 是研究人员基于几何 parsing 任务,在视觉 sys2 上的初步探索,他们也在积极往更通用的任务上迁移,并取得了初步的效果。大家敬请期待。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·