专栏名称: 深度之眼
入行人工智能,学算法公式,写毕业论文,看经典书籍,刷全球公开课,就来深度之眼
目录
相关文章推荐
小米汽车  ·  一镜到底,第一视角感受小米SU7 ... ·  昨天  
理想汽车  ·  理想超充2025春节充电报告 ·  3 天前  
比亚迪汽车  ·  全民智驾加配不加价 | ... ·  昨天  
小米汽车  ·  小米SU7 ... ·  昨天  
小鹏汽车  ·  2025小鹏汽车春节服务报告 ·  3 天前  
51好读  ›  专栏  ›  深度之眼

发顶会首选:具身智能!新成果直接霸榜CVPR

深度之眼  · 公众号  ·  · 2024-09-05 19:49

正文

最近无论是斯坦福机器人炒虾,还是特斯拉官宣机器人进厂,都赚足了眼球,实力证明了具身智能的火爆。

先不说具身智能是实现AGI的关键环节,也是未来研究的重要方向,我们就从发论文的角度来看, 今年的各大顶会,比如CVPR,具身智能就排了热门研究领域前三 ,可见入局具身智能早已成了必然趋势。

目前具身智能主要四个研究目标: 具身感知、具身互动、具身智能体、虚拟到现实 。如果大家想冲顶会,建议从这四个角度入手,我这边也整理了 20篇 具身智能顶会开源论文 给各位参考,都是2024年最新,包括CVPR、ECCV、ICML等。

另外我还准备了 40多个具身智能经典数据集 ,以及规模达到三百万的具身大规模数据集,帮大家搞定数据太贵/不够的问题。

扫码添加小享, 回复“ 具身顶会

免费获取 全部论文+开源代码

具身感知

Embodiedscan: A holistic multi-modal 3d perception suite towards embodied ai

方法: EmbodiedScan是一个新的多模态3D感知数据集,提供了丰富的室内场景注释,支持自我中心视角下的语言基础的全面3D场景理解。基于此数据集,论文提出了Embodied Perceptron框架,用于处理多视图输入,并在3D感知和语言基础任务上表现出色。

创新点:

  • EmbodiedScan:从自我中心视图实现基于语言的整体三维场景理解的多模态感知套件。
  • 基于一个大规模的数据集,提出了一个基准框架,能够处理任意数量的视图输入,使用统一的多模态编码器和任务特定的解码器。

具身交互

Dexterous Grasp Transformer

方法: 论文提出了一种名为Dexterous Grasp Transformer(DGTR)的新框架,用于生成灵巧抓取姿势。DGTR利用transformer解码器和可学习的抓取查询,仅通过一次前向传播就能从物体的点云中预测出多样化的可行抓取姿势集合。

创新点:

  • 动-静匹配训练策略(DSMT):通过引入动-静匹配训练策略,在显著提高Q1的同时,减少了约50%的穿透损失。
  • 对抗平衡的测试时适应(AB-TTA):通过引入对抗平衡的测试时适应模块(AB-TTA),显著提高了Q1值,并同时增强了ηnp和ηtb的性能。

扫码添加小享, 回复“ 具身顶会

免费获取 全部论文+开源代码

具身智能体

Embodied Multi-Modal Agent trained by an LLM from a Parallel TextWorld

方法: 论文提出了一种名为EMMA(Embodied Multi-Modal Agent)的方法,通过跨模态交互模仿学习,将一个在文本世界中表现出色的大型语言模型(LLM)专家的知识迁移到一个在视觉世界中的具身多模态代理上。

创新点:

  • 通过回顾反思,EMMA在时间上得到了改进。通过比较EMMA和去掉回顾机制的EMMA的平均成功率,作者发现EMMA的回顾机制显著优于没有回顾机制的EMMA。
  • 通过在特定噪声率下对EMMA和SOTA LLM代理(Reflexion)进行比较,作者发现随着噪声率的增加,EMMA的性能仍然比Reflexion更具鲁棒性。

虚拟到现实







请到「今天看啥」查看全文