专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
51好读  ›  专栏  ›  3D视觉工坊

TTIC最新提出 | 性能达到了98.4%!Transcrib3D:基于大语言模型三维指称表达理解SOTA

3D视觉工坊  · 公众号  ·  · 2024-05-29 21:36

正文

本次分享我们邀请到了Toyota Technological Institute at Chicago(TTIC)在读博士方家鼎,为大家详细介绍他们的工作:

Transcrib3D: 3D Referring Expression Resolution through Large Language Models

项目主页 https://ripl.github.io/Transcrib3D/
个人主页 https://www.fangjiading.com/

直播信息

时间

2024年5月30日(周四)晚上20:00

主题

基于大语言模型的三维指称表达理解SOTA

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播,或前往B站搜索3D视觉工坊观看直播

嘉宾介绍

方家鼎

Toyota Technological Institute at Chicago (TTIC) 在读博士。研究方向为具身空间智能与语言理解。

直播大纲

  1. 三维指称表达理解的问题与现行方法
  2. Transcrib3D方法介绍

参与方式

DEMO

摘要

如果机器人要有效地与人类协同工作,它们必须能够解释自然语言对其3D环境中物体的指称。理解三维指称表达是具有挑战性的——这需要既能解析场景的3D结构,又能在存在干扰和杂乱的情况下正确地将自由形式的语言进行匹配。我们介绍了Transcrib3D,这是一种将3D检测方法与大型语言模型(LLMs)的新兴推理能力结合起来的方法,使用文本作为统一的媒介,从而避免了需要大量注释的3D数据的多模态表示学习。作为其有效性的证明,Transcrib3D在3D指代基准测试中达到了最先进的水平,性能相较于之前的多模态基线有了巨大飞跃。为了改进零样本性能并促进在边缘计算机和机器人上的本地部署,我们提出了用于微调的小模型自我校正方法,使其在该任务上具有与大模型接近的性能。我们在一个真实机器人上实现了我们的方法,进行包含挑战性指代表达的抓取和放置任务。







请到「今天看啥」查看全文