0. 论文信息
标题:PixelWorld: Towards Perceiving Everything as Pixels
作者:Zhiheng Lyu, Xueguang Ma, Wenhu Chen
机构:University of Waterloo、Vector Institute
原文链接:https://arxiv.org/abs/2501.19339
代码链接:https://tiger-ai-lab.github.io/PixelWorld/
1. 导读
现有的基础模型通常将视觉输入处理为像素,将文本输入处理为标记,这是一种与人类感知形成对比的范例,在人类感知中,两种模态以统一的方式进行处理。随着嵌入和代理人工智能的兴起,输入主要来自相机像素,对统一感知框架的需求变得越来越明显。在这篇论文中,我们建议将所有模态(文本、表格、代码、图表、图像等)统一为像素输入,即“将一切感知为像素”(PEAP)。我们介绍了PixelWorld,这是一个新颖的评估套件,它将所有提到的模态统一到像素空间中,以衡量现有模型的性能。我们的发现表明:(1)在多模态数据集中,PEAP在基于标记的输入方面优于基线,受益于统一输入以更好地消除歧义,(2)当处理基于像素的输入时,所有模型的推理和编码能力显著下降,强调需要增强基础模型的感知能力,(3)在PEAP下,较大的模型可以在非推理任务上保持强大的性能,而像Phi-3.5-V这样的较小模型则遭受显著的性能下降,(4)PEAP的注意力模式与文本标记输入高度一致,(5) PEAP可以通过利用空间稀疏性来显著加速。我们的结论是,现有的前沿模型在像素感知方面是胜任的,但仍有改进的空间。我们的代码,数据集将在录用后发布。
2. 效果展示
PEAP框架:我们调查了将一切感知为像素的可能性。这个框架更符合人类的感知,减少了过度预处理的需要。在基准PIXELWORLD上评估时,PEAP在多模态任务(如网站、幻灯片、文档)上提高了性能,但在复杂、以文本为中心的任务(如推理和编码)上表现较差。与较小的模型相比,较大的模型在像素和令牌性能之间具有更好的可移植性。我们还观察到文本和图像表现出相似的注意力模式,并通过PEAP-Fast的补丁修剪减少了模型推理的开销。
3. 主要贡献
1.PixelWorld:这是一个全面的评估套件,用于评估基于像素的模型,涵盖文本、结构和多模态任务,使直接比较PEAP和基于令牌的方法成为可能。
2.任务性能分析:PEAP可以增强结构和多模态理解(例如网站、文档),但会降低在复杂文本中心任务(例如代码生成、推理)上的性能。值得注意的是,较大的模型在像素和令牌性能之间具有更好的可转移性,而较小的模型在PEAP下难以遵循指令。3.效率和注意力分析:我们提出PEAP Fast通过去除空白像素区域来优化推理速度,减少计算开销而不损失准确性。此外,我们表明PEAP和基于标记的模型表现出相似的注意力模式,这表明可能采用视觉编码器作为通用的多模态标记器。
4. 数据集
我们选择了几个涵盖不同技能领域的代表性数据集,如表1所示。我们主要使用数据集提供的提示。如果没有可用的提示,我们会使用默认提示。默认情况下,我们采用直接提示;但对于更复杂和数学化的数据集,如MBPP、MMLU-Pro和MathVerse,我们采用链式思维(CoT)提示来增强性能。所有评估都以零样本方式进行以减轻指令微调大型模型对少量样本提示的敏感性可能导致的性能退化。
5. 实验结果
图2报告了纯文本数据集(如ARC、MMLU-Pro、GLUE、GSM8K、SuperGLUE、MBPP)的模型精度。
图3总结了四个TableBench子集的模型性能:事实核查、数据分析、数学推理和可视化。
推荐课程:
彻底搞懂大模型数学基础剖析、原理与代码讲解
。
6. 总结 & 未来工作
在这项工作中,我们介绍了 PIXELWORLD,这是一个评估套件,它将文本、表格、代码和图像统一为基于像素的输入,以弥合标记化文本处理和类人视觉感知之间的差距。我们对PEAP的理解实验表明,基于像素的输入提高了在结构复杂和本质上多模态任务(如网站和幻灯片)上的性能。
通过减少OCR错误并保留上下文布局,它在具有挑战性的以文本为中心的任务(如高级知识推理和编码)上表现不如基于标记的方法。此外,注意力可视化显示像素补丁和文本标记之间具有高可转移性,表明未来“视觉作为标记”方法的可行性。然而,像素级输入会带来更高的计算开销我们通过删除空白像素区域来使用PEAP-Fast缓解这个问题,从而显著加快了推理速度。这些发现既强调了将一切视为像素的潜力和权衡,也为多模态理解提供了一个统一的框架,同时强调了进一步研究以优化效率和解决复杂推理和编码任务中的性能差距的必要性。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,已沉淀6年,星球内资料包括:
秘制视频课程近20门
(包括
结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云
等)、