Gemini 2.0 来了，只干三件事：智能体，智能体，智能体

果壳 · 公众号 · 科学 · 2024-12-12 08:44

正文

一般来说，“带货直播”有两个常见槽点：一是拖拖拉拉搞得太长，看官们注意力被别处拉走；二是上货痛快，发货卡壳。很不幸，OpenAI 全赶上了。

当 OpenAI 还在耍宝似的“老铁快看我多美”十二天连续发布会呢，Google 悄咪且鸡贼地亮出了 Gemini 2.0——一个被其 CEO 劈柴称为“为新智能体时代构建的下一代模型”。

其所有的重点特征都聚焦在了能带来新一代的、真实可用的智能体之上了：根据目前公布的信息，在搜索、浏览器、学术科研、代码开发，甚至游戏助手等场景下的智能体使用体验，都会被 Gemini 2.0 重塑升级。

Gemini 2.0 的 Flash（轻巧快速尺寸） 体验版自今日起已经开放给全部 Gemini 用户，立等可用；最新的 Deep Research 也已经对所有Gemini Advanced 用户开放（这个功能类似于科研学术助手，可以帮助个人分析理解复杂的科研项目，并撰写研究报告）——吸取了之前的教训，终于不用再因为“画饼发期货”而被吐槽了。

其余将在明年年初推出的新功能智能体中，还真有这么几个很有趣的东西：

Project Astra 升级版：生活更生活

（我们惦记的是它么？我们惦记的事每次展示 Astra 都出现的那个新眼镜～）

Project Astra 是在今年 I/O 大会上推出的多模态智能体应用，你可能还记得当时那段在 Deepmind 伦敦办公室利用其找东西的惊艳宣传片。基于 Gemini 2.0 的 Project Astra 会被赋予更强升级：

- 新版 Project Astra 可以听懂多种语言和混合语言的对话，对不同口音和生僻单词也更加包容（你看，虽然你讨厌中英夹杂，但是人家 AI 就很大度）；

- 可以调用 Google Search、Google Lens 和 Google Maps，让这个助手的价值变得更加日常高频。演示视频中就出现了典型的查询门禁密码、查询水洗标和洗衣机功能档位、骑行路途中实时查询店铺和街景信息等；

- 新的 Project Astra 最多可以记住长达 10 分钟的对话内容（这已经比开会时候的我强不少了）；

- 能够理解人类对话中的延迟（嗯……嘿……那个……是吧……挺适合用来理解相声的……）

Project Mariner：牛马更牛马

Project Mariner 是个 Gemini 2.0 之下的新玩意，一个在浏览器场景下提供交互的新功能——它的理解和交互范畴包括了浏览器页面（是浏览器，而非单一网页）中的像素、图像、文字、表单和代码等，通过Chrome 扩展程序来实现。

在一项针对智能体在端到端的真实世界网页任务的性能测试里（WebVoyager 测试），Project Mariner 实现了 83.5% 的工作效率，属于目前最先进的水平。

也正因为浏览器场景下这些更加复杂多变的任务，以及个人隐私、交易安全等可能的风险因素，Google 在发布的同时也承认了：测试中的 Project Mariner 仍处在速度慢、准确率不理想的早期状态。

Jules：代码更智能

另一个 Gemini 2.0 带来的新玩意，一个可以直接集成到 GitHub 工作流当中的 AI 代码智能体。

游戏助手：小白更高玩

Google 还称，利用 Gemini 2.0 构建了一种“游戏助手”智能体，根据游戏进度实时分析战况、做出决策建议。他们正在同一些大型游戏开发商进行合作，目前测试中的知名游戏，比如《部落冲突》和《海岛奇兵》等。

乐观地想，当年要是有这么个玩意，我的联盟小猎人也不会被三季稻老师秒杀那么多次了……

按照劈柴在公开信中的说法，“如果说 Gemini 1.0 是整合和理解信息，那么 Gemini 2.0 能够让信息更加有用。”若真能如此，那会令我对这个被 AI 命名的时代更有信心。

作者：卧虫

文章使用图片均来自 Google

果壳AI组出品

本文来自果壳，未经授权不得转载.

如有需要请联系[email protected]