【上交团队打造多模态大模型,能精准理解三维空间,可用于具身智能等领域】
最近一年来,如何用 #多模态大模型# 赋能具身智能研究是个十分火热的话题。然而,主流的多模态大模型聚焦于 2D 视觉理解,这对需要三维空间感知理解能力的具身智能来说是远远不够的。
由于无法精准地感知理解三维空间,一些基于流行的 2D 视觉语言模型构建的具身大模型,局限于完成 high-level 规划任务,而在 manipulation 任务上表现很差。
赵波教授于 8 月份入职 #上海交通大学# ,此前,早在 2024 年初该团队产生了让多模态大模型理解三维空间并赋能具身 manipulation 的想法。
考虑到许多机械臂上都配备有深度相机,能够提供精准的深度信息,因此他们计划训练一个面向具身智能的、能够同时理解 RGB+D 信息的 #多模态模型# 。
不管是流行的视觉特征提取器还是多模态大语言模型,都没有在深度图上训练过。因此,需要设计合适的深度图接入方式,收集深度图数据用于模型训练。
戳链接查看详情: 网页链接
最近一年来,如何用 #多模态大模型# 赋能具身智能研究是个十分火热的话题。然而,主流的多模态大模型聚焦于 2D 视觉理解,这对需要三维空间感知理解能力的具身智能来说是远远不够的。
由于无法精准地感知理解三维空间,一些基于流行的 2D 视觉语言模型构建的具身大模型,局限于完成 high-level 规划任务,而在 manipulation 任务上表现很差。
赵波教授于 8 月份入职 #上海交通大学# ,此前,早在 2024 年初该团队产生了让多模态大模型理解三维空间并赋能具身 manipulation 的想法。
考虑到许多机械臂上都配备有深度相机,能够提供精准的深度信息,因此他们计划训练一个面向具身智能的、能够同时理解 RGB+D 信息的 #多模态模型# 。
不管是流行的视觉特征提取器还是多模态大语言模型,都没有在深度图上训练过。因此,需要设计合适的深度图接入方式,收集深度图数据用于模型训练。
戳链接查看详情: 网页链接