专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
相关文章推荐
独角兽早知道  ·  宁德时代正式递表港交所,动力电池市场连续8年 ... ·  11 小时前  
A股投资日历  ·  投资日历:未来华为事件梳理 ... ·  13 小时前  
A股投资日历  ·  投资日历:未来华为事件梳理 ... ·  13 小时前  
笔记侠  ·  2024,8大行业破局的故事,在这里 ·  昨天  
库斯卡娅的朋友们  ·  马斯克的天命就是做公益哪 ·  昨天  
库斯卡娅的朋友们  ·  马斯克的天命就是做公益哪 ·  昨天  
吉安发布  ·  官方回应“江西可刷医保购买华为手表” ·  3 天前  
吉安发布  ·  官方回应“江西可刷医保购买华为手表” ·  3 天前  
51好读  ›  专栏  ›  我爱计算机视觉

大模型与具身智能的火花,ICML 2024 MFM-EAI Workshop征稿和挑战赛启动

我爱计算机视觉  · 公众号  · 科技自媒体  · 2024-05-27 22:33

正文


Workshop主页:https://icml-mfm-eai.github.io/


概述


近年来,多模态基础模型(MFM),例如 CLIP、ImageBind、DALL・E 3、GPT-4V、Gemini 和 Sora,已成为人工智能领域最引人注目且发展迅速的领域之一。同时,MFM 的开源社区也涌现出了诸如 LLaVA、LAMM、MiniGPT-4、Stable Diffusion 和 OpenSora 等具有代表性的开源项目。


不同于传统计算机视觉和自然语言处理模型,这类 MFM 正在积极探索通用问题解决方案。通过引入 MFM,具身智能(EAI)能够在模拟器和现实世界环境中更好地处理各种复杂任务。然而,在 MFM 和 EAI 的交叉领域,仍有许多尚未探讨和解决的问题,包括智能体长期决策、智能体运动规划、新环境泛化能力等。


本次 Workshop 将致力于探讨几个关键问题,包括但不限于:


  1. MFM 的泛化能力;

  2. 用于具身智能的 MFM;

  3. 基于生成模型的世界模型;

  4. 模仿学习数据收集。


Workshop 征稿


该 workshop 聚焦于多模态基础模型(MFM)、具身智能(EAI)以及两项研究的交叉领域。本次征稿主题包括但不限于:


  • Training and evaluation of MFM in open-ended scenarios

  • Data collection for training embodied Agents

  • Framework designs for MFM-powered embodied agents

  • Perception and high-level planning in embodied agents empowered by MFM

  • Decision-making and low-level control in embodied agents empowered by MFM

  • Evaluation of the capability of embodied agents

  • Generative model as world simulator

  • Limitations of MFM in empowering EAI


投稿规则


本次投稿将通过 OpenReview 平台实行双盲审稿。投稿的正文篇幅为 4 页,参考文献和补充材料篇幅不限。


  • 投稿格式和模板遵循 ICML 2024 投稿指南: https://icml.cc/Conferences/2024/CallForPapers

  • 投稿入口: https://openreview.net/group? id=ICML.cc/2024/Workshop/MFM-EAI


时间节点


所有时间节点均为 [AoE] (Anywhere on Earth)。



MFM-EAI 挑战赛


三个赛道(可以同时参与)


  • EgoPlan 挑战

EgoPlan 挑战赛致力于评估多模态大模型在复杂的现实世界场景中,针对人类日常活动所涉及的真实任务的规划能力。在比赛中,模型需要依据开放式的任务目标描述、第一人称视角下的任务进度视频和当前环境观察,从多样化的动作候选集合中选择出最合理的下一步,以有效推进任务的完成。

  • 比赛官网: https://chenyi99.github.io/ego_plan_challenge/

  • 即日起 - 2024 年 7 月 1 日  通过填写 [Google 表单] 报名参赛( https://docs.google.com/forms/d/e/1FAIpQLScnWoXjZcwaagozP3jXnzdSEXX3r2tgXbqO6JWP_lr_fdnpQw/viewform?usp=sf_link

  • 奖项设置


  • 冠军:800 美元

  • 亚军:600 美元

  • 创新奖:600 美元


  • Composable Generalization Agent 挑战


Composable generalization 挑战赛致力于评估由多模态大模型进行规划、low-level 控制器进行执行的组合系统在开放场景下的任务规划能力、任务执行能力和对 novel 场景、物体和技能的泛化能力。在比赛中,模型会根据语言形式的任务描述、多模态视觉输入(RGB 图片 + 深度图片),对任务进行拆解,并由控制器完成对拆解后子任务的执行。

  • 更多信息将于 7 月公布







请到「今天看啥」查看全文