专栏名称: AI生成未来
AIGC最新技术及资讯
目录
相关文章推荐
小新说车  ·  问界M8最大的对手,不是理想是它 ·  昨天  
有车以后  ·  13万不到买激光雷达,友商天塌了! ·  昨天  
融媒吴江  ·  突然宣布!大范围裁员! ·  2 天前  
融媒吴江  ·  突然宣布!大范围裁员! ·  2 天前  
宝马客  ·  宝马M5出厂新车有这种涂鸦?真帅! ·  2 天前  
51好读  ›  专栏  ›  AI生成未来

A3VLM: 一种基于视觉语言模型的关节感知的通用操作解决方案 | 联培生佳作

AI生成未来  · 公众号  ·  · 2024-07-30 05:30

正文

点击下方 卡片 ,关注“ AI生成未来

请加小助理 加入AIGC技术交流群

备注公司/学校+昵称+研究方向, 广告勿扰

感谢知乎@东林钟声撰写了本篇论文解读的底稿,论文一作为22级交大联培博士黄思渊,更正修改后形成本文。

A3VLM基于sphinx模型,通过多轮对话形式,精准理解并执行面向复杂铰链结构的机器人任务。代码和模型均已开源。



论文地址(点击“阅读原文”直达):

https://arxiv.org/abs/2406.07549

代码地址:

https://github.com/changhaonan/A3VLM

模型地址:

https://huggingface.co/SiyuanH/A3VLM7B

研究背景

在具身智能这个概念下,参考 知乎@东林钟声 对现在主流具身智能的技术路线分类如下:

按照上述技术流程分类,A3VLM属于利用LLM的问答能力 从文本中提取Affordance或者可动属性(转动、 平移 )的模型。 更具体的来说,A3VLM将人类指令理解、具身动作输出、关节理解以及局部知识理解等机器人领域的知识统一建模为VQA多轮对话形式。这种统一的表征模式赋予了A3VLM多方面的能力,使其能够更加精准地理解和执行复杂的任务。
  • 人类指令理解:A3VLM能够准确解析自然语言指令。
  • 具身动作输出:模型不仅理解指令,还能根据指令规划具体的机器人动作。
  • 关节理解:A3VLM能够识别和理解对象的关节结构,为精确操作提供空间结构信息。
  • 局部知识理解:通过局部特征的识别,模型能够理解场景中的具体元素,实现更精细的操作。
A3VLM部署后推理流程如下图所示。面对用户提出的“如何剪纸”这一问题,A3VLM首先识别出了剪刀可操作部分 在三维空间中的位置 ,以及动作需要的动作类型 。这一步不仅展示了A3VLM对物体功能的理解,也体现了其在真实场景中快速定位的能力。紧接着,A3VLM进一步确定了 剪刀腿的关节结构 ,为执行后续的操控动作提供了必要的空间信息。通过多轮对话,A3VLM能够指导机器人以最合适的方式进行操作。

从动作表征角度,A3VLM属于object-centric的robotics多模态大模型。在技术层面,主要的难点在于 1. 数据格式以及构建;2.模型的搭建。

数据格式和构建

A3VLM将物体的可动性分为两大类(转动revolute以及平动prismatic),为了更加完备的描述,采用了以对象中心的表示法三元组的结构对物体可动region进行描述, ,其中B表示Bbox,A表示轴,S表示类别 。B由8个顶点的(x,y,z)进行描述,A由轴的2个端点的(x,y,z)进行描述,由于输入是2d的图片,所以深度进行了0-1归一化。
在数据构建使用了PartNet-Mobility提供的URDF,包含46个类别中的2000多个不同铰接对象。使用PyRender得到渲染的RGB图像,包含随机相机位置、照明和关节值,以生成40个不同图像。 这一步可以得到 的原始标注 ,但是为了用来训练VLM,还需要进一步对格式进行处理。标注可视化结果如下图所示。同时,对于动作推理(action grounding)任务数据,作者利用GPT4生成大量物体类别相关的动作及操作描述,丰富了训练集的文本标注。






请到「今天看啥」查看全文