微软发布的 Magma 非常强大!一个多模态代理 AI 模型,可以根据输入的文本和图像生成文本。该模型专为研究目的而设计,旨在共享知识并加速多模态 AI 的研究,尤其是多模态代理 AI。
该模型的主要创新在于引入了两项技术创新:Set-of-Mark和Trace-of-Mark,并利用大量未标记的视频数据来学习时空基础和规划。
图1 - 模型详细信息
图2 - 用户界面导航:查询西雅图的天气,打开飞行模式
图3 - 用户界面导航:向Bob分享和发送消息
图4 - 操控机器人选择hot dog
图5 - 操控机器人把蘑菇放进锅里
图6 - 操控机器人将布料从左向右推
图7/8 - 控制游戏机器人手机绿色积木
亮点:
1. 数字世界和物理世界: Magma 是第一个多模式 AI 代理的基础模型,旨在处理虚拟和现实环境中的复杂交互!
2. 多功能模型: Magma作为单一模型不仅具有通用的图像和视频理解能力,而且还能生成目标驱动的视觉计划和动作,使其能够灵活地完成不同的代理任务!
3. 最先进的性能: Magma 在各种多模式任务上实现了最先进的性能,包括 UI 导航、机器人操作以及通用图像和视频理解,特别是空间理解和推理!
4. 可扩展的预训练策略: Magma 除了现有的代理数据之外,还被设计为从未标记的视频中进行可扩展地学习,从而具有很强的泛化能力,适合现实世界的应用!
访问:huggingface.co/microsoft/Magma-8B
#ai创造营# #deepseek# #科技#
该模型的主要创新在于引入了两项技术创新:Set-of-Mark和Trace-of-Mark,并利用大量未标记的视频数据来学习时空基础和规划。
图1 - 模型详细信息
图2 - 用户界面导航:查询西雅图的天气,打开飞行模式
图3 - 用户界面导航:向Bob分享和发送消息
图4 - 操控机器人选择hot dog
图5 - 操控机器人把蘑菇放进锅里
图6 - 操控机器人将布料从左向右推
图7/8 - 控制游戏机器人手机绿色积木
亮点:
1. 数字世界和物理世界: Magma 是第一个多模式 AI 代理的基础模型,旨在处理虚拟和现实环境中的复杂交互!
2. 多功能模型: Magma作为单一模型不仅具有通用的图像和视频理解能力,而且还能生成目标驱动的视觉计划和动作,使其能够灵活地完成不同的代理任务!
3. 最先进的性能: Magma 在各种多模式任务上实现了最先进的性能,包括 UI 导航、机器人操作以及通用图像和视频理解,特别是空间理解和推理!
4. 可扩展的预训练策略: Magma 除了现有的代理数据之外,还被设计为从未标记的视频中进行可扩展地学习,从而具有很强的泛化能力,适合现实世界的应用!
访问:huggingface.co/microsoft/Magma-8B
#ai创造营# #deepseek# #科技#