专栏名称: Dots机构投资者社区
机构投资者组成的社区,深度点评财经事件
目录
相关文章推荐
51好读  ›  专栏  ›  Dots机构投资者社区

OpenAI深夜被狙,谷歌Gemini 2.0掀翻牌桌!最强智能体组团击毙o1

Dots机构投资者社区  · 公众号  ·  · 2024-12-13 08:15

正文

本文转自微信公众号“新智元”,作者:新智元。




编辑:编辑部 HYZj
【导读】 OpenAI彻底被谷歌狙击,震撼亮相的Gemini 2.0掀起智能体革命,原生多模态的多项惊人demo预示着:智能体时代,谷歌已经走在了最前面。

OpenAI Day 5,风头被谷歌再一次抢了。
就在刚刚,谷歌CEO劈柴、DeepMind CEO哈萨比斯、DeepMind CTO Kavukcuoglu三位大佬联手官宣:新一代原生多模态模型Gemini 2.0 Flash正式发布!
至此,Gemini正式进入2.0时代!
从命名来看,Gemini 2.0 Flash很可能是新系列的最小杯,但它的性能已经超越了上一代大哥1.5 Pro,而且速度提高了一倍。
甚至,它的性能完全超越o1-preview、o1-mini,仅次于GPT-4o(2024-11-20)。
不仅如此,2.0 Flash还具有出色的多语言能力,并可以原生调用谷歌搜索等工具。
值得一提的是,Gemini 2.0 Flash非常擅长编码,在SWE-bench Verified基准上,直接击败完整版o1。
当然,除了新模型之外,谷歌还带来了一系列基于Gemini 2.0打造的智能体创新:
  • 通用AI助手Project Astra

  • 在浏览器中进行交互的智能体Project Mariner

  • 为开发者打造的AI代码智能体Jules

  • 游戏辅助智能体

  • 机器人智能体


而这仅仅是一个开始。
对于AI智能体来说,2025年将是关键之年,而谷歌将凭借着Gemini 2.0支撑起自己的智能体工作流。

Gemini 2.0,迄今最强大的AI模型


Gemini 1.0和1.5,是第一批原生多模态模型。
NotebookLM就是很好的例子,说明了多模态和长上下文可以为人们带来什么。
今天,谷歌专为新智能体时代打造的下一代模型——Gemini 2.0,重磅登场了。
这个迄今最强大的模型,能使我们构建更接近通用助手的全新AI智能体。
下一步,谷歌会将Gemini 2.0的高级推理功能引入AI Overviews,解决更复杂的主题和多步骤问题,包括高级数学方程、多模态查询和编码。
Gemini 2.0的进步,得益于谷歌对全栈式AI创新长达十年的投资。它基于定制硬件构建,比如第六代 TPU Trillium。TPU为Gemini 2.0的训练和推理,提供了100%的支持。
Gemini 2.0支持全新的多模态AI智能体,它们能看到、听到你周围的世界,还能思考、计划、记住、采取行动。

Gemini 2.0 Flash,原生多模态


今天,谷歌发布了Gemini 2.0系列模型中的第一个——Gemini 2.0 Flash的实验版本。
基于谷歌迄今最受开发者欢迎的1.5 Flash,Gemini 2.0 Flash在保持同样快速响应时间的同时,提供了更强劲的性能表现。
值得注意的是,2.0 Flash在关键基准测试上不仅超越了1.5 Pro的表现,而且速度提高了一倍。
除了支持图像、视频和音频等多模态输入外,2.0 Flash还支持多模态输出,包括原生生成的图文混合内容和可调控的多语言文本转语音(Text-to-Speech,TTS)功能,并且可以原生调用多种工具,如谷歌搜索、代码执行以及第三方用户自定义函数等。
在各项基准测试中,相较于前一代1.5 Pro和1.5 Flash,最新2.0 Flash实现了全面的提升,尤其是代码、数学、推理能力方面。
不过,在长上下文、音频方面,2.0 Flash性能非常有限。
目前,Gemini 2.0 Flash Experimental在Google AI Studio和Vertex AI平台上,通过Gemini API正式向开发者开放。多模态输入和文本输出功能,均可使用。
不过,文本转语音、原生图像生成功能,现仅向首批合作伙伴开放。
为支持开发者构建动态交互式应用,谷歌还同步推出了新的多模态实时API,支持实时音频、视频流输入,并能够集成调用多种工具组合。
对于普通用户来说,即日就可直接用上2.0 Flash Experimental(网页端),移动端很快就会上线。
另外,正式版模型将于2025年1月份推出,同时将提供更多模型规模选择。

开启智能体新纪元


Gemini 2.0 Flash的面世,标志着AI交互再次进入了全新的阶段。
最令人兴奋的是,2.0 Flash具备了原生的用户交互界面的能力。
同时,它还在多模态推理、长文本理解、复杂指令执行与规划组合式函数调用、原生工具调用以及更低的延迟,取得多项技术突破。
这意味着,用户可以获得更加流畅、更直观的AI交互体智能体体验。
AI智能体的实际应用,是一个充满无限可能的研究领域。
谷歌正通过不断原型创新,打造出原生用户界面新体验:
  • 「Project Astra」——探索通用AI助手的未来

  • 「Project Mariner」——从浏览器入手,探索人类与智能体交互的未来方向

  • 「Jules」——专为开发者打造的AI代码智能体

Project Astra:让多模态AI走入现实生活


今年I/O大会上,谷歌大杀器Project Astra首次亮相,在视觉识别和语音交互上,与GPT-4o几乎不相上下。
这一次,得到Gemini 2.0加持后,Project Astra能力也在以下四大方面得到改进:
- 更强的对话能力
Project Astra现在不仅能够使用多种语言进行对话,还支持混合语言交谈,同时对口音和生僻词的理解也更加出色。
- 扩展的工具集成
通过Gemini 2.0,Project Astra可以调用谷歌搜索、Lens和地图功能,让其作为日常生活助手变得更加实用。
- 增强的记忆能力
Project Astra现在可以保持长达10分钟的对话记忆,并能记住更多用户之前的对话内容,从而提供更加个性化的服务。
- 优化的响应速度
借助新的流式处理能力和原生音频理解技术,Project Astra现在可以以近乎人类对话的速度来理解语言。
此外,谷歌还计划将些功能引入Gemini应用等产品,并进一步扩展到智能眼镜等其他设备形式。
在演示视频中,研究小哥用装载了Project Astra的测试版Pixel手机和智能眼镜向我们展示了Astra的多模态能力。
首先,小哥在手机里打开了一封包含公寓信息的邮件,让Astra帮他识别并记住门禁码。
Astra直接读屏获取密码,告诉了他该如何操作开门,并记住了这个密码。
在视频的结尾,研究小哥在伦敦逛了一大圈回来,戴着智能眼镜向Astra询问门禁码,Astra准确地回答了出来。
小哥让Astra读取衣服上的洗涤标签,Astra马上给出洗衣建议。
接着他又将手机镜头转向洗衣机,询问Astra该如何操作洗衣机,Astra很快地提供了指导。
研究小哥准备出门,于是拿了一份地点清单,请Astra介绍了几个地方。
路过面包店看到司康(scone),小哥顺口问了下「scone」发音的问题。
随便指了个街边的雕塑,Astra就能讲出它的来历。
小哥看到伦敦街头的山羊绒,询问Astra它适不适合带回家种。
要知道,小哥在提问的时候并没有告诉Astra他的家在纽约,但Astra记得之前的对话,流畅回答。这体现出Astra的跨会话记忆能力。
研究小哥还测试了一下Astra给朋友挑礼物的能力。他在手机里浏览了一遍朋友的书单,让Astra读屏识别,并总结出这个朋友的阅读品味。
然后小哥挑了几本书,让Astra从中挑选最适合的一本。
小哥将手机摄像头对着路边的一辆公交车,询问Astra它是否会路过唐人街。






请到「今天看啥」查看全文