主要观点总结
谷歌发布了新一代原生多模态AI模型Gemini 2.0,带来了多项技术突破。该模型在性能、多模态输入和输出、长文本理解等方面有了显著提升,并引入了一系列基于Gemini 2.0的智能体创新。文章介绍了Gemini 2.0在智能体时代的重要性,以及其对AI助手、浏览器交互、代码执行、游戏和机器人等领域的影响。同时,文章还提到了谷歌在AI技术方面的持续创新和其他相关项目。
关键观点总结
关键观点1: Gemini 2.0的发布及特点
谷歌发布了新的AI模型Gemini 2.0,它是迄今为止最强大的AI模型。Gemini 2.0支持全新的多模态AI智能体,具有图像、视频和音频等多模态输入和输出功能。它还具有出色的性能,在多项基准测试中实现了全面的提升。
关键观点2: Gemini 2.0的应用领域
Gemini 2.0在智能体时代的应用领域非常广泛。它可以用于构建更接近通用助手的全新AI智能体,解决更复杂的主题和多步骤问题。此外,它还可以用于浏览器交互、代码执行、游戏和机器人等领域,为这些领域带来创新和便利。
关键观点3: 谷歌在AI技术方面的持续创新
谷歌在AI技术方面持续进行创新,不断推出新的项目和功能。例如,Project Astra、Project Mariner和Jules等项目的推出,展示了谷歌在AI技术领域的领先地位和对未来的展望。
正文
【新智元导读】
昨天深夜,OpenAI彻底被谷歌狙击,震撼亮相的Gemini 2.0掀起智能体革命,原生多模态的多项惊人demo预示着:智能体时代,谷歌已经走在了最前面。
就在刚刚,谷歌CEO劈柴、DeepMind CEO哈萨比斯、DeepMind CTO Kavukcuoglu三位大佬联手官宣:新一代原生多模态模型Gemini 2.0 Flash正式发布!
从命名来看,Gemini 2.0 Flash很可能是新系列的最小杯,但它的性能已经超越了上一代大哥1.5 Pro,而且速度提高了一倍。
甚至,它的性能完全超越o1-preview、o1-mini,仅次于GPT-4o(2024-11-20)。
不仅如此,2.0 Flash还具有出色的多语言能力,并可以原生调用谷歌搜索等工具。
值得一提的是,Gemini 2.0 Flash非常擅长编码,在SWE-bench Verified基准上,直接击败完整版o1。
当然,除了新模型之外,谷歌还带来了一系列基于Gemini 2.0打造的智能体创新:
对于AI智能体来说,2025年将是关键之年,而谷歌将凭借着Gemini 2.0支撑起自己的智能体工作流。
Gemini 1.0和1.5,是第一批原生多模态模型。
NotebookLM就是很好的例子,说明了多模态和长上下文可以为人们带来什么。
今天,谷歌专为新智能体时代打造的下一代模型——Gemini 2.0,重磅登场了。
这个迄今最强大的模型,能使我们构建更接近通用助手的全新AI智能体。
下一步,谷歌会将Gemini 2.0的高级推理功能引入AI Overviews,解决更复杂的主题和多步骤问题,包括高级数学方程、多模态查询和编码。
Gemini 2.0的进步,得益于谷歌对全栈式AI创新长达十年的投资。它基于定制硬件构建,比如第六代 TPU Trillium。TPU为Gemini 2.0的训练和推理,提供了100%的支持。
Gemini 2.0支持全新的多模态AI智能体,它们能看到、听到你周围的世界,还能思考、计划、记住、采取行动。
今天,谷歌发布了Gemini 2.0系列模型中的第一个——Gemini 2.0 Flash的实验版本。
基于谷歌迄今最受开发者欢迎的1.5 Flash,Gemini 2.0 Flash在保持同样快速响应时间的同时,提供了更强劲的性能表现。
值得注意的是,2.0 Flash在关键基准测试上不仅超越了1.5 Pro的表现,而且速度提高了一倍。
除了支持图像、视频和音频等多模态输入外,2.0 Flash还支持多模态输出,包括原生生成的图文混合内容和可调控的多语言文本转语音(Text-to-Speech,TTS)功能,并且可以原生调用多种工具,如谷歌搜索、代码执行以及第三方用户自定义函数等。
在各项基准测试中,相较于前一代1.5 Pro和1.5 Flash,最新2.0 Flash实现了全面的提升,尤其是代码、数学、推理能力方面。
不过,在长上下文、音频方面,2.0 Flash性能非常有限。
目前,Gemini 2.0 Flash Experimental在Google AI Studio和Vertex AI平台上,通过Gemini API正式向开发者开放。多模态输入和文本输出功能,均可使用。
不过,文本转语音、原生图像生成功能,现仅向首批合作伙伴开放。
为支持开发者构建动态交互式应用,谷歌还同步推出了新的多模态实时API,支持实时音频、视频流输入,并能够集成调用多种工具组合。
对于普通用户来说,即日就可直接用上2.0 Flash Experimental(网页端),移动端很快就会上线。
另外,正式版模型将于2025年1月份推出,同时将提供更多模型规模选择。
开启智能体新纪元
Gemini 2.0 Flash的面世,标志着AI交互再次进入了全新的阶段。
最令人兴奋的是,2.0 Flash具备了原生的用户交互界面的能力。
同时,它还在多模态推理、长文本理解、复杂指令执行与规划组合式函数调用、原生工具调用以及更低的延迟,取得多项技术突破。
这意味着,用户可以获得更加流畅、更直观的AI交互体智能体体验。
AI智能体的实际应用,是一个充满无限可能的研究领域。
谷歌正通过不断原型创新,打造出原生用户界面新体验:
Project Astra:让多模态AI走入现实生活
今年I/O大会上,谷歌大杀器Project Astra首次亮相,在视觉识别和语音交互上,与GPT-4o几乎不相上下。
这一次,得到Gemini 2.0加持后,Project Astra能力也在以下四大方面得到改进:
Project Astra现在不仅能够使用多种语言进行对话,还支持混合语言交谈,同时对口音和生僻词的理解也更加出色。
通过Gemini 2.0,Project Astra可以调用谷歌搜索、Lens和地图功能,让其作为日常生活助手变得更加实用。
Project Astra现在可以保持长达10分钟的对话记忆,并能记住更多用户之前的对话内容,从而提供更加个性化的服务。
借助新的流式处理能力和原生音频理解技术,Project Astra现在可以以近乎人类对话的速度来理解语言。
此外,谷歌还计划将些功能引入Gemini应用等产品,并进一步扩展到智能眼镜等其他设备形式。
在演示视频中,研究小哥用装载了Project Astra的测试版Pixel手机和智能眼镜向我们展示了Astra的多模态能力。
首先,小哥在手机里打开了一封包含公寓信息的邮件,让Astra帮他识别并记住门禁码。
Astra直接读屏获取密码,告诉了他该如何操作开门,并记住了这个密码。
在视频的结尾,研究小哥在伦敦逛了一大圈回来,戴着智能眼镜向Astra询问门禁码,Astra准确地回答了出来。
小哥让Astra读取衣服上的洗涤标签,Astra马上给出洗衣建议。
接着他又将手机镜头转向洗衣机,询问Astra该如何操作洗衣机,Astra很快地提供了指导。
研究小哥准备出门,于是拿了一份地点清单,请Astra介绍了几个地方。
路过面包店看到司康(scone),小哥顺口问了下「scone」发音的问题。
随便指了个街边的雕塑,Astra就能讲出它的来历。
小哥看到伦敦街头的山羊绒,询问Astra它适不适合带回家种。
要知道,小哥在提问的时候并没有告诉Astra他的家在纽约,但Astra记得之前的对话,流畅回答。这体现出Astra的跨会话记忆能力。
研究小哥还测试了一下Astra给朋友挑礼物的能力。他在手机里浏览了一遍朋友的书单,让Astra读屏识别,并总结出这个朋友的阅读品味。
然后小哥挑了几本书,让Astra从中挑选最适合的一本。
小哥将手机摄像头对着路边的一辆公交车,询问Astra它是否会路过唐人街。
对于沿途会路过的地标,Astra也能迅速提供相关信息。
Astra的多语言能力也不容小觑,不仅英语溜,还能用法语和泰米尔语聊天。
除了能在手机上使用Astra,Astra还能搭载在智能眼镜上。
视频中,研究小哥戴着搭载Astra的智能眼镜上街了,上来就问了一句伦敦的天气,Astra对答如流。
骑行时,Astra还能认出路过的公园并介绍它的信息。
小哥准备骑车回公寓,让Astra查询沿途有没有超市。
Project Mariner:能帮你完成复杂任务的AI智能体
但此前曾有外媒爆料称,谷歌自研全新智能体项目「Project Jarvis」能够将Chrome任务自动化,并由未来Gemini 2.0版本驱动,预计在今年12月发布。
种种迹象表明,贾维斯项目与Project Mariner有极大的关联。
正如博客所述,Project Mariner是一个基于Gemini 2.0构建的早期「研究原型」。它从浏览器入手,探索人工智能与人类交互的未来。
Project Mariner的核心能力在于,卓越的信息理解和分析,它能够全面感知浏览器屏幕上的各种信息。
比如像素级精准识别,以及网页元素(如文本、代码、图像、表单等)智能分析。
演示中,打开一个在线谷歌表格——户外公司,然后唤出Project Mariner(目前是Chrome实验性扩展程序)。
输入提示「记住这份公司的名单,然后,找到他们的网站,并查找我可以联系到他们的邮箱。记住这些方便我日后使用」
随后,智能体读取了表格中的内容,并了解到了所有公司名称。
通过搜索第一家公司名字,AI智能体点击查询后,进入了Benchingmark Climbing的官网主页,找到右上角「信息」菜单栏中的「关于我们」。
接下来,是第二家公司Lunkerhunt,同样搜索找到官网,公司信息介绍得到邮件地址。
在右侧对话栏中,你可以清晰看到智能体的推理过程,能够更清晰理解它的操作。
表格中另外两家公司邮件查找,AI智能体同样执行如上的重复操作——导航搜索、点击链接、滚动页面、记录信息。
在浏览完第四个网站后,智能体完成了任务,并列出了所有的邮箱地址。
以上,我们所看到的能力,其实与Anthropic所展示的Claude 3.5操作计算机界面,执行各种任务的能力几乎一致。
在业界权威的WebVoyager基准测试中,Project Mariner已交出了令人惊艳的成绩单:
作为单一AI智能体系统,它在真实网络任务的端到端测试中,取得了惊人的83.5%成功率。
这可能意味着,AI已经能够相对准确地模仿人类在互联网上,完成任务的行为。
此外,Project Mariner最大的亮点是其严格的安全设计,用户始终可以保持对系统的控制。
举例来说,其操作权限仅限当前浏览器的标签页,而且仅能执行一些基本操作:输入、滚动、点击。
若在执行购物等敏感操作之前,必须获得用户的最终确认。
尽管仍处于早期研究阶段,但Project Mariner证明了智能体在浏览器中导航的可能性,其意义远远超过了技术本身。
虽然目前在完成任务时,可能存在准确度不足和速度较慢的问题,但这都将随着技术迭代快速得到改善。
随着AI代码助手的迅速发展,它已从基础的代码搜索工具进化为深度融入开发者工作流程的智能助手。
如今,在评测真实软件工程任务的基准SWE-bench Verified中,搭载了代码执行工具的2.0 Flash已经可以取得51.8%的优异成绩。
得益于2.0 Flash超群的推理速度,智能体能够快速生成和评估数百个潜在解决方案,并通过现有单元测试和Gemini自身的判断,筛选出最优方案。
想象一下,你的团队刚刚完成了一次Bug Bash,现在你面临着一大堆待修复的bug。
从今天开始,这些让人头大的Python和Javascript编程任务,全部都可以交给由Gemini 2.0驱动的AI代码智能体——Jules去做了。
Jules可以异步工作并与你的GitHub工作流程集成,在你专注于真正想要构建的内容时,它会处理bug修复和其他耗时的任务。