请加小助理
加入AIGC技术交流群
备注公司/学校+昵称+研究方向,
广告勿扰
感谢知乎@东林钟声撰写了本篇论文解读的底稿,论文一作为22级交大联培博士黄思渊,更正修改后形成本文。
A3VLM基于sphinx模型,通过多轮对话形式,精准理解并执行面向复杂铰链结构的机器人任务。代码和模型均已开源。
论文地址(点击“阅读原文”直达):
https://arxiv.org/abs/2406.07549
代码地址:
https://github.com/changhaonan/A3VLM
模型地址:
https://huggingface.co/SiyuanH/A3VLM7B
在具身智能这个概念下,参考
知乎@东林钟声
对现在主流具身智能的技术路线分类如下:
按照上述技术流程分类,A3VLM属于利用LLM的问答能力
从文本中提取Affordance或者可动属性(转动、
平移
)的模型。
更具体的来说,A3VLM将人类指令理解、具身动作输出、关节理解以及局部知识理解等机器人领域的知识统一建模为VQA多轮对话形式。这种统一的表征模式赋予了A3VLM多方面的能力,使其能够更加精准地理解和执行复杂的任务。
-
人类指令理解:A3VLM能够准确解析自然语言指令。
-
具身动作输出:模型不仅理解指令,还能根据指令规划具体的机器人动作。
-
关节理解:A3VLM能够识别和理解对象的关节结构,为精确操作提供空间结构信息。
-
局部知识理解:通过局部特征的识别,模型能够理解场景中的具体元素,实现更精细的操作。
A3VLM部署后推理流程如下图所示。面对用户提出的“如何剪纸”这一问题,A3VLM首先识别出了剪刀可操作部分
在三维空间中的位置
,以及动作需要的动作类型
。这一步不仅展示了A3VLM对物体功能的理解,也体现了其在真实场景中快速定位的能力。紧接着,A3VLM进一步确定了
剪刀腿的关节结构
,为执行后续的操控动作提供了必要的空间信息。通过多轮对话,A3VLM能够指导机器人以最合适的方式进行操作。
从动作表征角度,A3VLM属于object-centric的robotics多模态大模型。在技术层面,主要的难点在于 1. 数据格式以及构建;2.模型的搭建。
A3VLM将物体的可动性分为两大类(转动revolute以及平动prismatic),为了更加完备的描述,采用了以对象中心的表示法三元组的结构对物体可动region进行描述,
,其中B表示Bbox,A表示轴,S表示类别
。B由8个顶点的(x,y,z)进行描述,A由轴的2个端点的(x,y,z)进行描述,由于输入是2d的图片,所以深度进行了0-1归一化。
在数据构建使用了PartNet-Mobility提供的URDF,包含46个类别中的2000多个不同铰接对象。使用PyRender得到渲染的RGB图像,包含随机相机位置、照明和关节值,以生成40个不同图像。
这一步可以得到
的原始标注
,但是为了用来训练VLM,还需要进一步对格式进行处理。标注可视化结果如下图所示。同时,对于动作推理(action grounding)任务数据,作者利用GPT4生成大量物体类别相关的动作及操作描述,丰富了训练集的文本标注。