本次分享我们邀请到了Toyota Technological Institute at Chicago(TTIC)在读博士方家鼎,为大家详细介绍他们的工作:
Transcrib3D: 3D Referring Expression Resolution through Large Language Models
项目主页
:
https://ripl.github.io/Transcrib3D/
个人主页
:
https://www.fangjiading.com/
直播信息
时间
2024年5月30日(周四)晚上20:00
主题
基于大语言模型的三维指称表达理解SOTA
直播平台
3D视觉工坊哔哩哔哩
扫码观看直播,或前往B站搜索3D视觉工坊观看直播
嘉宾介绍
方家鼎
Toyota Technological Institute at Chicago (TTIC) 在读博士。研究方向为具身空间智能与语言理解。
直播大纲
-
-
参与方式
DEMO
摘要
如果机器人要有效地与人类协同工作,它们必须能够解释自然语言对其3D环境中物体的指称。理解三维指称表达是具有挑战性的——这需要既能解析场景的3D结构,又能在存在干扰和杂乱的情况下正确地将自由形式的语言进行匹配。我们介绍了Transcrib3D,这是一种将3D检测方法与大型语言模型(LLMs)的新兴推理能力结合起来的方法,使用文本作为统一的媒介,从而避免了需要大量注释的3D数据的多模态表示学习。作为其有效性的证明,Transcrib3D在3D指代基准测试中达到了最先进的水平,性能相较于之前的多模态基线有了巨大飞跃。为了改进零样本性能并促进在边缘计算机和机器人上的本地部署,我们提出了用于微调的小模型自我校正方法,使其在该任务上具有与大模型接近的性能。我们在一个真实机器人上实现了我们的方法,进行包含挑战性指代表达的抓取和放置任务。