A3VLM: 一种基于视觉语言模型的关节感知的通用操作解决方案 | 联培生佳作

AI生成未来 · 公众号 · · 2024-07-30 05:30

正文

点击下方 卡片 ，关注“ AI生成未来 ”

请加小助理 加入AIGC技术交流群

备注公司/学校+昵称+研究方向， 广告勿扰

感谢知乎@东林钟声撰写了本篇论文解读的底稿，论文一作为22级交大联培博士黄思渊，更正修改后形成本文。

A3VLM基于sphinx模型，通过多轮对话形式，精准理解并执行面向复杂铰链结构的机器人任务。代码和模型均已开源。

论文地址（点击“阅读原文”直达）：

https://arxiv.org/abs/2406.07549

代码地址：

https://github.com/changhaonan/A3VLM

模型地址：

https://huggingface.co/SiyuanH/A3VLM7B

研究背景

在具身智能这个概念下，参考知乎@东林钟声对现在主流具身智能的技术路线分类如下：

按照上述技术流程分类，A3VLM属于利用LLM的问答能力 从文本中提取Affordance或者可动属性（转动、 平移 ）的模型。 更具体的来说，A3VLM将人类指令理解、具身动作输出、关节理解以及局部知识理解等机器人领域的知识统一建模为VQA多轮对话形式。这种统一的表征模式赋予了A3VLM多方面的能力，使其能够更加精准地理解和执行复杂的任务。

人类指令理解：A3VLM能够准确解析自然语言指令。
具身动作输出：模型不仅理解指令，还能根据指令规划具体的机器人动作。
关节理解：A3VLM能够识别和理解对象的关节结构，为精确操作提供空间结构信息。
局部知识理解：通过局部特征的识别，模型能够理解场景中的具体元素，实现更精细的操作。

A3VLM部署后推理流程如下图所示。面对用户提出的“如何剪纸”这一问题，A3VLM首先识别出了剪刀可操作部分 在三维空间中的位置 ，以及动作需要的动作类型 。这一步不仅展示了A3VLM对物体功能的理解，也体现了其在真实场景中快速定位的能力。紧接着，A3VLM进一步确定了 剪刀腿的关节结构 ，为执行后续的操控动作提供了必要的空间信息。通过多轮对话，A3VLM能够指导机器人以最合适的方式进行操作。

从动作表征角度，A3VLM属于object-centric的robotics多模态大模型。在技术层面，主要的难点在于 1. 数据格式以及构建；2.模型的搭建。

数据格式和构建

A3VLM将物体的可动性分为两大类（转动revolute以及平动prismatic），为了更加完备的描述，采用了以对象中心的表示法三元组的结构对物体可动region进行描述， ，其中B表示Bbox，A表示轴，S表示类别 。B由8个顶点的（x,y,z）进行描述，A由轴的2个端点的（x,y,z）进行描述，由于输入是2d的图片，所以深度进行了0-1归一化。

在数据构建使用了PartNet-Mobility提供的URDF，包含46个类别中的2000多个不同铰接对象。使用PyRender得到渲染的RGB图像，包含随机相机位置、照明和关节值，以生成40个不同图像。这一步可以得到 的原始标注 ，但是为了用来训练VLM，还需要进一步对格式进行处理。标注可视化结果如下图所示。同时，对于动作推理（action grounding）任务数据，作者利用GPT4生成大量物体类别相关的动作及操作描述，丰富了训练集的文本标注。

A3VLM: 一种基于视觉语言模型的关节感知的通用操作解决方案 | 联培生佳作

正文

请到「今天看啥」查看全文