专栏名称: 麻省理工科技评论
《麻省理工科技评论》杂志官方微博 源自麻省理工学院,关注即将商业化的创新,聚焦即将资本化的创业。
目录
相关文章推荐
手游那点事  ·  春节期间,10家游戏公司宣布了裁员 ·  4 天前  
手游那点事  ·  今天,率土团队单机新作公开Steam页面 ·  3 天前  
51好读  ›  专栏  ›  麻省理工科技评论

【上交团队打造多模态大模型,能精准理解三维空间,可用于具身智能等-20241224163501

麻省理工科技评论  · 微博  ·  · 2024-12-24 16:35

正文

2024-12-24 16:35

【上交团队打造多模态大模型,能精准理解三维空间,可用于具身智能等领域】

最近一年来,如何用 #多模态大模型# 赋能具身智能研究是个十分火热的话题。然而,主流的多模态大模型聚焦于 2D 视觉理解,这对需要三维空间感知理解能力的具身智能来说是远远不够的。

由于无法精准地感知理解三维空间,一些基于流行的 2D 视觉语言模型构建的具身大模型,局限于完成 high-level 规划任务,而在 manipulation 任务上表现很差。

赵波教授于 8 月份入职 #上海交通大学# ,此前,早在 2024 年初该团队产生了让多模态大模型理解三维空间并赋能具身 manipulation 的想法。

考虑到许多机械臂上都配备有深度相机,能够提供精准的深度信息,因此他们计划训练一个面向具身智能的、能够同时理解 RGB+D 信息的 #多模态模型#

不管是流行的视觉特征提取器还是多模态大语言模型,都没有在深度图上训练过。因此,需要设计合适的深度图接入方式,收集深度图数据用于模型训练。

戳链接查看详情: 网页链接






请到「今天看啥」查看全文