专栏名称: Dots机构投资者社区

机构投资者组成的社区，深度点评财经事件

OpenAI深夜被狙，谷歌Gemini 2.0掀翻牌桌！最强智能体组团击毙o1

Dots机构投资者社区 · 公众号 · · 2024-12-13 08:15

正文

本文转自微信公众号“新智元”，作者：新智元。

编辑：编辑部 HYZj

【导读】 OpenAI彻底被谷歌狙击，震撼亮相的Gemini 2.0掀起智能体革命，原生多模态的多项惊人demo预示着：智能体时代，谷歌已经走在了最前面。

OpenAI Day 5，风头被谷歌再一次抢了。

就在刚刚，谷歌CEO劈柴、DeepMind CEO哈萨比斯、DeepMind CTO Kavukcuoglu三位大佬联手官宣：新一代原生多模态模型Gemini 2.0 Flash正式发布！

至此，Gemini正式进入2.0时代！

从命名来看，Gemini 2.0 Flash很可能是新系列的最小杯，但它的性能已经超越了上一代大哥1.5 Pro，而且速度提高了一倍。

甚至，它的性能完全超越o1-preview、o1-mini，仅次于GPT-4o（2024-11-20）。

不仅如此，2.0 Flash还具有出色的多语言能力，并可以原生调用谷歌搜索等工具。

值得一提的是，Gemini 2.0 Flash非常擅长编码，在SWE-bench Verified基准上，直接击败完整版o1。

当然，除了新模型之外，谷歌还带来了一系列基于Gemini 2.0打造的智能体创新：

通用AI助手Project Astra
在浏览器中进行交互的智能体Project Mariner
为开发者打造的AI代码智能体Jules
游戏辅助智能体
机器人智能体

而这仅仅是一个开始。

对于AI智能体来说，2025年将是关键之年，而谷歌将凭借着Gemini 2.0支撑起自己的智能体工作流。

Gemini 2.0，迄今最强大的AI模型

Gemini 1.0和1.5，是第一批原生多模态模型。

NotebookLM就是很好的例子，说明了多模态和长上下文可以为人们带来什么。

今天，谷歌专为新智能体时代打造的下一代模型——Gemini 2.0，重磅登场了。

这个迄今最强大的模型，能使我们构建更接近通用助手的全新AI智能体。

下一步，谷歌会将Gemini 2.0的高级推理功能引入AI Overviews，解决更复杂的主题和多步骤问题，包括高级数学方程、多模态查询和编码。

Gemini 2.0的进步，得益于谷歌对全栈式AI创新长达十年的投资。它基于定制硬件构建，比如第六代 TPU Trillium。TPU为Gemini 2.0的训练和推理，提供了100%的支持。

Gemini 2.0支持全新的多模态AI智能体，它们能看到、听到你周围的世界，还能思考、计划、记住、采取行动。

Gemini 2.0 Flash，原生多模态

今天，谷歌发布了Gemini 2.0系列模型中的第一个——Gemini 2.0 Flash的实验版本。

基于谷歌迄今最受开发者欢迎的1.5 Flash，Gemini 2.0 Flash在保持同样快速响应时间的同时，提供了更强劲的性能表现。

值得注意的是，2.0 Flash在关键基准测试上不仅超越了1.5 Pro的表现，而且速度提高了一倍。

除了支持图像、视频和音频等多模态输入外，2.0 Flash还支持多模态输出，包括原生生成的图文混合内容和可调控的多语言文本转语音（Text-to-Speech，TTS）功能，并且可以原生调用多种工具，如谷歌搜索、代码执行以及第三方用户自定义函数等。

在各项基准测试中，相较于前一代1.5 Pro和1.5 Flash，最新2.0 Flash实现了全面的提升，尤其是代码、数学、推理能力方面。

不过，在长上下文、音频方面，2.0 Flash性能非常有限。

目前，Gemini 2.0 Flash Experimental在Google AI Studio和Vertex AI平台上，通过Gemini API正式向开发者开放。多模态输入和文本输出功能，均可使用。

不过，文本转语音、原生图像生成功能，现仅向首批合作伙伴开放。

为支持开发者构建动态交互式应用，谷歌还同步推出了新的多模态实时API，支持实时音频、视频流输入，并能够集成调用多种工具组合。

对于普通用户来说，即日就可直接用上2.0 Flash Experimental（网页端），移动端很快就会上线。

另外，正式版模型将于2025年1月份推出，同时将提供更多模型规模选择。

开启智能体新纪元

Gemini 2.0 Flash的面世，标志着AI交互再次进入了全新的阶段。

最令人兴奋的是，2.0 Flash具备了原生的用户交互界面的能力。

同时，它还在多模态推理、长文本理解、复杂指令执行与规划组合式函数调用、原生工具调用以及更低的延迟，取得多项技术突破。

这意味着，用户可以获得更加流畅、更直观的AI交互体智能体体验。

AI智能体的实际应用，是一个充满无限可能的研究领域。

谷歌正通过不断原型创新，打造出原生用户界面新体验：

「Project Astra」——探索通用AI助手的未来
「Project Mariner」——从浏览器入手，探索人类与智能体交互的未来方向
「Jules」——专为开发者打造的AI代码智能体

Project Astra：让多模态AI走入现实生活

今年I/O大会上，谷歌大杀器Project Astra首次亮相，在视觉识别和语音交互上，与GPT-4o几乎不相上下。

这一次，得到Gemini 2.0加持后，Project Astra能力也在以下四大方面得到改进：

- 更强的对话能力

Project Astra现在不仅能够使用多种语言进行对话，还支持混合语言交谈，同时对口音和生僻词的理解也更加出色。

- 扩展的工具集成

通过Gemini 2.0，Project Astra可以调用谷歌搜索、Lens和地图功能，让其作为日常生活助手变得更加实用。

- 增强的记忆能力

Project Astra现在可以保持长达10分钟的对话记忆，并能记住更多用户之前的对话内容，从而提供更加个性化的服务。

- 优化的响应速度

借助新的流式处理能力和原生音频理解技术，Project Astra现在可以以近乎人类对话的速度来理解语言。

此外，谷歌还计划将些功能引入Gemini应用等产品，并进一步扩展到智能眼镜等其他设备形式。

在演示视频中，研究小哥用装载了Project Astra的测试版Pixel手机和智能眼镜向我们展示了Astra的多模态能力。

首先，小哥在手机里打开了一封包含公寓信息的邮件，让Astra帮他识别并记住门禁码。

Astra直接读屏获取密码，告诉了他该如何操作开门，并记住了这个密码。

在视频的结尾，研究小哥在伦敦逛了一大圈回来，戴着智能眼镜向Astra询问门禁码，Astra准确地回答了出来。

小哥让Astra读取衣服上的洗涤标签，Astra马上给出洗衣建议。

接着他又将手机镜头转向洗衣机，询问Astra该如何操作洗衣机，Astra很快地提供了指导。

研究小哥准备出门，于是拿了一份地点清单，请Astra介绍了几个地方。

路过面包店看到司康（scone），小哥顺口问了下「scone」发音的问题。

随便指了个街边的雕塑，Astra就能讲出它的来历。

小哥看到伦敦街头的山羊绒，询问Astra它适不适合带回家种。

要知道，小哥在提问的时候并没有告诉Astra他的家在纽约，但Astra记得之前的对话，流畅回答。这体现出Astra的跨会话记忆能力。

研究小哥还测试了一下Astra给朋友挑礼物的能力。他在手机里浏览了一遍朋友的书单，让Astra读屏识别，并总结出这个朋友的阅读品味。

然后小哥挑了几本书，让Astra从中挑选最适合的一本。

小哥将手机摄像头对着路边的一辆公交车，询问Astra它是否会路过唐人街。

OpenAI深夜被狙，谷歌Gemini 2.0掀翻牌桌！最强智能体组团击毙o1

正文

【导读】 OpenAI彻底被谷歌狙击，震撼亮相的Gemini 2.0掀起智能体革命，原生多模态的多项惊人demo预示着：智能体时代，谷歌已经走在了最前面。

开启智能体新纪元

请到「今天看啥」查看全文