发顶会首选：具身智能！新成果直接霸榜CVPR

深度之眼 · 公众号 · · 2024-09-05 19:49

正文

最近无论是斯坦福机器人炒虾，还是特斯拉官宣机器人进厂，都赚足了眼球，实力证明了具身智能的火爆。

先不说具身智能是实现AGI的关键环节，也是未来研究的重要方向，我们就从发论文的角度来看， 今年的各大顶会，比如CVPR，具身智能就排了热门研究领域前三 ，可见入局具身智能早已成了必然趋势。

目前具身智能主要四个研究目标： 具身感知、具身互动、具身智能体、虚拟到现实 。如果大家想冲顶会，建议从这四个角度入手，我这边也整理了 20篇 具身智能顶会开源论文 给各位参考，都是2024年最新，包括CVPR、ECCV、ICML等。

另外我还准备了 40多个具身智能经典数据集 ，以及规模达到三百万的具身大规模数据集，帮大家搞定数据太贵/不够的问题。

扫码添加小享， 回复“ 具身顶会 ”

免费获取 全部论文+开源代码

方法： EmbodiedScan是一个新的多模态3D感知数据集，提供了丰富的室内场景注释，支持自我中心视角下的语言基础的全面3D场景理解。基于此数据集，论文提出了Embodied Perceptron框架，用于处理多视图输入，并在3D感知和语言基础任务上表现出色。

创新点：

方法： 论文提出了一种名为Dexterous Grasp Transformer（DGTR）的新框架，用于生成灵巧抓取姿势。DGTR利用transformer解码器和可学习的抓取查询，仅通过一次前向传播就能从物体的点云中预测出多样化的可行抓取姿势集合。

创新点：

扫码添加小享， 回复“ 具身顶会 ”

免费获取 全部论文+开源代码

方法： 论文提出了一种名为EMMA（Embodied Multi-Modal Agent）的方法，通过跨模态交互模仿学习，将一个在文本世界中表现出色的大型语言模型（LLM）专家的知识迁移到一个在视觉世界中的具身多模态代理上。

创新点：