专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
黄建同学  ·  Figure 创始人Brett ... ·  昨天  
宝玉xp  ·  DeepSeek 开源周第 6 天彩蛋 – ... ·  2 天前  
宝玉xp  ·  GPT ... ·  2 天前  
量子位  ·  DeepSeek突袭公布成本利润率:545% ·  2 天前  
爱可可-爱生活  ·  转发微博-20250228181707 ·  3 天前  
51好读  ›  专栏  ›  黄建同学

微软发布的 Magma 非常强大!一个多模态代理 AI 模型,可-20250303072521

黄建同学  · 微博  · AI  · 2025-03-03 07:25

正文

2025-03-03 07:25

微软发布的 Magma 非常强大!一个多模态代理 AI 模型,可以根据输入的文本和图像生成文本。该模型专为研究目的而设计,旨在共享知识并加速多模态 AI 的研究,尤其是多模态代理 AI。

该模型的主要创新在于引入了两项技术创新:Set-of-Mark和Trace-of-Mark,并利用大量未标记的视频数据来学习时空基础和规划。

图1 - 模型详细信息
图2 - 用户界面导航:查询西雅图的天气,打开飞行模式
图3 - 用户界面导航:向Bob分享和发送消息
图4 - 操控机器人选择hot dog
图5 - 操控机器人把蘑菇放进锅里
图6 - 操控机器人将布料从左向右推
图7/8 - 控制游戏机器人手机绿色积木

亮点:
1. 数字世界和物理世界: Magma 是第一个多模式 AI 代理的基础模型,旨在处理虚拟和现实环境中的复杂交互!

2. 多功能模型: Magma作为单一模型不仅具有通用的图像和视频理解能力,而且还能生成目标驱动的视觉计划和动作,使其能够灵活地完成不同的代理任务!

3. 最先进的性能: Magma 在各种多模式任务上实现了最先进的性能,包括 UI 导航、机器人操作以及通用图像和视频理解,特别是空间理解和推理!

4. 可扩展的预训练策略: Magma 除了现有的代理数据之外,还被设计为从未标记的视频中进行可扩展地学习,从而具有很强的泛化能力,适合现实世界的应用!

访问:huggingface.co/microsoft/Magma-8B

#ai创造营# #deepseek# #科技#






请到「今天看啥」查看全文