开源地址:Ucas-HaoranWei/Slow-Perception: Official code implementation of Slow Perception:Let's Perceive Geometric Figures Step-by-step
论文地址:
https://arxiv.org/abs/2412.20631
前言:
慢感知是StepFun多模态团队对视觉system2的初步探索。研究人员认为:1)目前多模领域o1-like的模型,主要关注文本推理,对视觉感知的关注不够。2)精细/深度感知是一个复杂任务,且是未来做视觉推理的重要基础。而思想之一是如何把感知做“慢”,即通过某种任务拆解(step-by-step)实现感知层面的inference time scaling。这里有个简单的例子:
具体地,模型基于一个虚拟的感知尺(perceptual ruler),从线段的初始点逐步描向终止点。作者把“眼动”过程中停留的位置称为gaze(凝视点),对于一条长于感知尺的线段,整个感知过程被建模为在一个决策点通过多次眼跳到达下一个决策点的过程(multi-hop-1-decision)。感知尺的长度在一次训练中是固定的,这样短线和长线的推理计算量变得不同,这更符合直觉与上文的分析。当然感知尺长度在训练前可以随意设置,作者发现其长度设置的越短,几何解析的性能越好。感知尺短说明模型描一条线用的推理计算量大,即慢感知建模方案存在感知层面的inference time scaling。
表1. 慢感知性能
图2. 慢感知inference scaling
如上表1所示,baseline代表感知尺无限长,即所有线段均从初始点直接预测终止点。n-length代表感知尺长度为n,n是matplotlib绘制距离,所有几何图形绘制在-10到10的坐标系中。可以看到感知尺长度从12到4,所有指标(包括F1,Precision,Recall)都在上涨。感知尺越短,描一根线的停顿(gaze点)越多,计算量越大,inference time也会越久。图2展示了慢感知inference time scaling的趋势。
图3. 抖动凝视(gaze)点
为了验证感知流动是否依赖精准的凝视(gaze)点,作者抖动了gaze点真值进行训练和测试,对比结果如图3所示。可以看到即便是基于抖动过的gaze点,模型性能依旧远高于baseline(56.6% F1 vs. 51.4% F1),也仅比不抖动的情况低了1%:慢感知最关键的是要建模一种从初始决策点到下一个决策点感知的正确流向,而中间的具体过程可能没有那么关键。这一结论会大大降低将该方法用在通用场景上的标注难度。