TTIC最新提出 | 性能达到了98.4%！Transcrib3D：基于大语言模型三维指称表达理解SOTA

3D视觉工坊 · 公众号 · · 2024-05-29 21:36

正文

本次分享我们邀请到了Toyota Technological Institute at Chicago(TTIC)在读博士方家鼎，为大家详细介绍他们的工作：

Transcrib3D: 3D Referring Expression Resolution through Large Language Models

项目主页 ： https://ripl.github.io/Transcrib3D/
个人主页 ： https://www.fangjiading.com/

直播信息

时间

2024年5月30日（周四）晚上20：00

主题

基于大语言模型的三维指称表达理解SOTA

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播，或前往B站搜索3D视觉工坊观看直播

嘉宾介绍

方家鼎

Toyota Technological Institute at Chicago (TTIC) 在读博士。研究方向为具身空间智能与语言理解。

直播大纲

三维指称表达理解的问题与现行方法
Transcrib3D方法介绍

参与方式

DEMO

摘要

如果机器人要有效地与人类协同工作，它们必须能够解释自然语言对其3D环境中物体的指称。理解三维指称表达是具有挑战性的——这需要既能解析场景的3D结构，又能在存在干扰和杂乱的情况下正确地将自由形式的语言进行匹配。我们介绍了Transcrib3D，这是一种将3D检测方法与大型语言模型（LLMs）的新兴推理能力结合起来的方法，使用文本作为统一的媒介，从而避免了需要大量注释的3D数据的多模态表示学习。作为其有效性的证明，Transcrib3D在3D指代基准测试中达到了最先进的水平，性能相较于之前的多模态基线有了巨大飞跃。为了改进零样本性能并促进在边缘计算机和机器人上的本地部署，我们提出了用于微调的小模型自我校正方法，使其在该任务上具有与大模型接近的性能。我们在一个真实机器人上实现了我们的方法，进行包含挑战性指代表达的抓取和放置任务。