专栏名称: AI科技大本营

为AI领域从业者提供人工智能领域热点报道和海量重磅访谈；面向技术人员，提供AI技术领域前沿研究进展和技术成长路线；面向垂直企业，实现行业应用与技术创新的对接。全方位触及人工智能时代，连接AI技术的创造者和使用者。

OpenAI宣布人工智能技术进入第三阶段；李飞飞空间智能公司获得2.3亿美元融资 | AI头条

AI科技大本营 · 公众号 · · 2024-09-18 15:55

正文

整理 | 王启隆

出品 | AI 科技大本营（ID：rgznai100）

一分钟速览新闻点！

OpenAI 宣布人工智能技术进入新阶段：AI 执行复杂任务能力显著提升
李飞飞的 World Labs 获 2.3 亿美元融资，致力开发空间智能 AI 模型
Mistral AI 开源 Pixtral 12B 多模态 LLM
Luma Dream Machine 开放 API，引领 DiT 视频生成新潮流
微软宣布第二代 Copilot 和 Agent Builder
腾讯推出游戏视频模型 GameGen-O

国内外 AI 要闻

OpenAI 宣布人工智能技术进入新阶段：AI 执行复杂任务能力显著提升

近日，OpenAI 首席执行官兼创始人山姆·阿尔特曼（Sam Altman）宣布，当前的人工智能模型已经成功实现了 OpenAI 设定的第三阶段技术目标。这一阶段标志着 AI 在自然语言处理和执行复杂任务方面取得了重大进展。AI 现在能够通过自然语言指令执行多步骤的复杂任务，并且在遇到任务不明确或存在歧义时，能够主动询问用户，以获取更多信息，从而更准确地完成任务。

山姆·阿尔特曼进一步透露：“ OpenAI 的下一个目标是训练 AI 在多样化的游戏环境中进行操作。这些游戏被视为小型的虚拟世界，具有极大的多样性。AI 需要快速适应这些环境，并学会在不同的游戏中表现出色。这一目标的实现将推动 AI 在生成模型和强化学习等领域的进一步发展，为 AI 技术的广泛应用奠定更坚实的基础。随着 AI 技术的不断进步，我们期待它在更多领域展现其强大的能力。 ”

此前，OpenAI 明确提出了四个技术目标，主要围绕构建安全人工智能和确保AI的利益尽可能广泛和均匀地分布。以下是这些目标的总结：

阶段 1：测量我们的进展

开发一个活生生的标准，用来衡量一个智能体（agent）在多种环境中实现用户预期目标的能力。这个标准将包括一系列OpenAI Gym环境，这些环境具有统一的动作和观察空间，以便单一智能体可以在所有环境中运行。这包括游戏、机器人和基于语言的任务。

阶段 2：构建家用机器人

目标是开发能够执行家庭任务的机器人，这需要在机器学习和机器人技术方面取得显著进展。

阶段 3（当前）：构建具有实用自然语言理解能力的智能体（Agent）

开发能够理解和响应自然语言指令的智能体，这将推动自然语言处理和理解技术的发展。

阶段 4：使用单一智能体解决多种游戏

目标是训练一个足够强大的智能体，能够解决初始指标中的任何游戏。游戏是多样化的虚拟小世界，快速且良好地学习玩游戏将需要在生成模型和强化学习方面取得重大进展。

李飞飞的 World Labs 获 2.3 亿美元融资，致力开发空间智能 AI 模型

9 月 15 日，李飞飞的空间智能公司 World Labs 正式成立，该公司获得 2.3 亿美元融资，估值 10 亿美金，投资方包括 Andreessen Horowitz、NEA 和 Radical Ventures 等。 World Labs 计划在 2025 年推出首款产品，即能够理解三维世界并与之交互的 “大型世界模型”，这些模型将供艺术家、设计师、开发者和工程师等专业人士使用。公司的使命是赋予 AI 丰富的空间智能，将当前 2D 平面的 AI 模型扩展到完整的 3D 虚拟和现实世界。其技术核心是开发具有空间智能的 “基础模型”，未来几个月将分享更多技术和产品详细信息。目前，World Labs 正在招聘人才，专注于推动 AI 走向新高度。

Mistral AI 开源 Pixtral 12B 多模态 LLM

9 月 17 日，Mistral AI 宣布开源 Pixtral 12B，这是首个多模态 Mistral 模型，采用 Apache 2.0 许可证。Pixtral 12B 是 Mistral Nemo 12B 的直接替代品，其架构包括从头开始训练的新型 400M 参数视觉编码器和基于 Mistral Nemo 的 12B 多模态解码器，能处理可变的图像尺寸和纵横比，支持 128k 上下文窗口中的多个图像。该模型在多模态任务中表现强劲，在指令遵循方面尤为出色，同时不牺牲关键文本能力。它在 MMMU 推理基准测试中取得优异成绩，在图表理解、文档问答、多模态推理和指令遵循等任务中有出色表现。Pixtral 12B 可通过 Le Chat、La Plateforme、mistral - inference 和 vLLM 等多种方式运行。

模型下载： https://huggingface.co/mistralai/Pixtral-12B-2409

Luma Dream Machine 开放 API，引领 DiT 视频生成新潮流

近日，Luma Dream Machine 成为首个完全开放 API 的 DiT 视频生成模型。

OpenAI宣布人工智能技术进入第三阶段；李飞飞空间智能公司获得2.3亿美元融资 | AI头条

正文

请到「今天看啥」查看全文