专栏名称: 谷歌黑板报

传播Google的产品、技术和文化，分享Google的互联网营销理念和经验。

Gemini 2.0: 我们智能体时代的最新 AI 模型

谷歌黑板报 · 公众号 · · 2024-12-12 00:50

正文

信息是人类进步的基石。26 年来，我们始终专注于我们的使命 —— 整合全球信息，供大众使用，让人人受益。这也是我们持续拓展人工智能前沿领域的原因。我们整合来自世界各地的信息，并通过多样化的输出方式，让这些信息触手可及，真正为您所用。

正是基于这个愿景，我们在去年年底推出了 Gemini 1.0。作为首个原生多模态模型，Gemini 1.0 和 1.5 在多模态和长上下文处理方面取得了重大进展，能够理解跨越文本、视频、图像、音频和代码等多种形式的信息，并处理更为庞大的信息。

现在，数百万开发者正在基于 Gemini 进行开发。Gemini 也正在帮助我们自己重新构想所有的产品——包括我们拥有 20 亿用户的 7 款产品——并打造新的产品。NotebookLM 就是个很好的例子，它展示了多模态和长上下文能够为人们带来什么，以及为什么如此受大家喜爱。

在过去一年里，我们在持续开发更多智能体模型，这也意味着它们可以更好地理解周围的世界，提前思考多个步骤，并在您的监督下代表您行动。

今天，我们很高兴推出了为新智能体时代构建的下一代模型：Gemini 2.0，这是我们迄今为止最强大的模型。凭借在多模态方面的新进展——例如原生图像和原生音频的输出以及原生工具使用—— Gemini 2.0 使我们能够构建新的 AI 智能体，从而让我们离构建通用助手的愿景更进一步。

今天，我们将 2.0 开放给开发者以及受信任的测试人员。我们也正在积极推进将其整合到我们的产品中，率先从 Gemini 和 Search 开始。从今天开始，Gemini 2.0 Flash 体验版模型将对所有 Gemini 用户开放。同时，我们还推出了 Deep Research 的新功能，它运用高级推理和长上下文处理能力，承担研究助手的角色，帮助您探索复杂的主题并撰写报告。该功能自今日起对 Gemini Advanced 用户开放。

Search 无疑是受到人工智能影响最深远、变革最显著的产品。如今，AI Overviews 已触达 10 亿用户，该功能使用户能够提出全新的问题类型，迅速成为 Search 有史以来最受欢迎的功能之一。接下来，我们会将 Gemini 2.0 的高级推理能力融入 AI Overviews，以攻克更复杂的主题和多步骤问题，包括高等数学方程、多模态查询和编码。我们本周已经在小范围进行了测试，并计划于明年年初在更大范围推出。同时，我们还计划明年将 AI Overviews 功能面向更多国家开放，适配更多语言。

2.0 的进展得益于我们所特有的长达 10 年全栈式 AI 创新研究的投入。它基于我们定制的硬件第六代 TPU Trillium 构建而成。TPU 为 Gemini 2.0 的训练和推理提供 100% 算力支持，今天 Trillium 也全面向用户开放，以便他们能够基于此进行开发。

如果说 Gemini 1.0 是整合和理解信息，那么 Gemini 2.0 能够让信息更加有用。我非常期待 Gemini 2.0 时代的无限可能！

向下滑动，查看更多

作者：

Demis Hassabis, Google DeepMind CEO

Koray Kavukcuoglu, Google DeepMind CTO

代表 Gemini 团队

在过去一年中，我们在人工智能领域取得了巨大进步。今天，我们发布 Gemini 2.0 系列模型中的第一个模型：Gemini 2.0 Flash 的体验版。这是我们的主力模型，具有低延迟特性，而且在我们大规模技术前沿中展现了卓越的性能。

同时，我们还通过展示基于 Gemini 2.0 原生多模态功能的原型来分享我们关于智能体的前沿研究。

Gemini 2.0 Flash

Gemini 2.0 Flash 是建立在 1.5 Flash 的成功基础之上，而 1.5 Flash 是我们迄今为止最受开发者欢迎的版本。与 1.5 Flash 相比，Gemini 2.0 Flash 在同样快速的响应时间下性能进一步增强。值得一提的是，2.0 Flash 在关键基准测试中甚至超越了 1.5 Pro，其速度是 1.5 Pro 的两倍。同时 2.0 Flash 还具有新功能，除了能够支持图片、视频和音频等多模态输入，2.0 Flash 现在还可以支持多模态输出，例如可以直接生成图像与文本混合的内容，以及原生生成可控的多语言文本转语音(TTS)音频。它还可以原生调用 Google Search、代码执行以及第三方用户定义的函数等工具。

点击查看大图

我们的目标是让人们能够更安全、快速地使用我们的模型。在过去一个月，我们分享了 Gemini 2.0 的早期体验版，并得到了开发者的积极反馈。

作为提供给开发者的体验版模型，Gemini 2.0 Flash 现在可以通过 Google AI Studio 和 Vertex AI 中的 Gemini API 获取，所有开发者均可使用多模态输入和文本输出，抢先体验的合作伙伴可使用原生文本转语音和图像生成功能。该产品将于 1 月份全面上市，届时将推出更多型号。

为了帮助开发者构建动态和交互式应用程序，我们还发布了新的 Multimodal Live API，它具有实时音频、视频流输入以及使用多个组合工具的能力。有关 2.0 Flash 和 Multimodal Live API 的更多信息，请参阅我们的开发者博客。

Gemini 2.0 应用于我们 AI 助手 Gemini app

同样从今天开始，全球的 Gemini 用户可以通过在电脑端和移动端网页的模型下拉菜单中进行选择，来开启基于2.0 Flash 体验版优化后的聊天对话，并且该版本将很快在 Gemini 移动应用中推出。同时，基于这个新模型，用户还可以体验到更加有用的 Gemini 助手。

明年初，我们还会将 Gemini 2.0 扩展到更多 Google 产品中。

解锁 Gemini 2.0 智能互动新体验

Gemini 2.0 Flash 的原生用户界面操作能力，以及多模态推理、长文本理解、复杂指令跟随和规划能力、组合函数的调用，原生工具使用以及延迟优化等一系列优化改进，共同促进了全新的、更智能化的交互体验。

AI 智能体在现实中的应用是一个令人振奋且充满可能性的研究领域。我们正在探索这个全新的领域，开发出了一系列原型，这些原型能够帮助人们完成任务，达成相应的目标。其中包括：

Project Astra 的升级版，用于探索未来通用 AI 助手能力的研究原型；

全新的 Project Mariner，从浏览器入手，探索人与智能体交互的未来发展；

Jules，能够帮助开发者的 AI 驱动的编码智能体。

目前，我们仍处于开发初期，但我们非常期待看到受信任的测试人员来使用这些新功能，并从他们的反馈中汲取经验，不断完善，进而帮助我们在未来将新功能应用到更广泛的产品中。

Project Astra：

使用多模态理解现实世界的智能体

自从在 Google I/O 大会上推出 Project Astra 以来，我们一直向那些在 Android 手机上使用它的受信任的测试人员收集反馈。这些大量且宝贵的意见帮助我们更深入地理解通用 AI 助手在现实应用中的表现，包括在安全和伦理方面可能面临的挑战。基于 Gemini 2.0 版本，我们在以下方面进行了改进：

更流畅的对话： Project Astra 现在可以在多种语言和混合语言之间进行对话，并且能够更好地理解不同口音和生僻单词。

新工具的使用： 借助 Gemini 2.0，Project Astra 可以使用 Google Search、Google Lens 和 Google Maps，从而在日常生活中更好地发挥助手作用。

更强的记忆力： 我们增强了 Project Astra 的记忆能力，同时确保你可以掌控对话。现在，它最多可以记住长达 10 分钟的会话内容，并且可以回忆起过去与它进行的更多对话，以便为您提供更好的个性化服务。

更低的延迟： 借助新的流式处理技术和原生音频理解能力，该智能体能够以近于人类对话的延迟来理解语言。

我们正在将这些功能应用于 Google 的产品中，例如我们的 AI 助手 Gemini app 以及智能眼镜等其他设备。除此之外，我们将逐步扩大受信任的测试群体范围，其中的一小部分受信任的测试人员将很快能够开始测试 Project Astra 在原型智能眼镜上的表现。

Project Mariner：帮您完成复杂任务的智能体

Project Mariner 是使用 Gemini 2.0 构建的早期研究原型，旨在从您的浏览器开始，探索人机交互的未来。作为研究原型，它能够理解和推理浏览器页面中的信息，包括像素和文本、代码、图像和表单等网页元素，然后通过实验性的 Chrome 扩展程序使用这些信息为您完成任务。

在 WebVoyager 基准测试（该测试针对智能体在端到端的真实世界网页任务的性能）中，Project Mariner 作为单个智能体设置实现了 83.5% 的工作效率，达到了最先进的水平。

虽然目前 Project Mariner 的运行并非总是准确，且完成任务的速度较慢，但它仍处于早期阶段，并且随着时间的推移将迅速改善。

为了安全、负责任地构建这一系统，我们正在积极研究新型风险和应对措施，始终保持有人类的参与和监督。例如，Project Mariner 只能在浏览器上的活动标签页中键入、滚动或单击，而它在采取某些敏感操作（如购买某物）之前，会要求用户进行最终确认。

受信任的测试人员现在正开始使用实验性的 Chrome 扩展程序测试 Project Mariner，同时，我们正与网络生态系统展开合作。

Jules：面向开发者的智能体

接下来，我们会探索人工智能智能体如何通过 Jules（一种实验性的 AI 代码智能体，它可以直接集成到 GitHub 工作流程中）来协助开发者。它可以解决问题、制定并执行计划，所有这些都在开发者指导和监督下进行。这项工作是我们长期目标的一部分，即构建可在所有领域（包括编码）中提供帮助的 AI 智能体。

关于此实验的更多信息，请参阅我们的开发者博客文章。

游戏和其他领域的智能体

Google DeepMind 一直以来都在利用游戏来帮助人工智能模型更好地遵守规则，进行规划，并运用逻辑思维。比如就在上周，我们推出了 Genie 2，这是一个可以从单个图像创建无限多种可玩 3D 世界的 AI 模型。基于这一传统，我们使用 Gemini 2.0 构建了智能体，它们可以帮助您在电子游戏中做出更明智的决策。这些智能体可以根据屏幕上的实时画面，分析游戏情况，并为您提供下一步行动建议。

我们正在与 Supercell 等顶尖的游戏开发团队合作，探索智能体在游戏领域的应用。我们通过测试它们在《部落冲突》、《海岛奇兵》等各种游戏中的表现，来评估它们理解游戏规则、应对挑战的能力。

除了做虚拟游戏伙伴之外，这些智能体还可以通过 Google Search 让您接触到丰富的游戏相关的知识。

除了探索虚拟世界的智能体能力外，我们还将 Gemini 2.0 的空间推理能力应用于机器人领域，尝试让智能体在现实世界中提供帮助。虽然这项研究仍处于初期阶段，但我们对智能体在现实环境中的应用前景感到非常兴奋。

关于这些研究原型和实验的更多信息，请您查阅 labs.google。

在智能体时代负责任地进行构建

Gemini 2.0: 我们智能体时代的最新 AI 模型

正文

请到「今天看啥」查看全文