一般来说,“带货直播”有两个常见槽点:一是拖拖拉拉搞得太长,看官们注意力被别处拉走;二是上货痛快,发货卡壳。很不幸,OpenAI 全赶上了。
当 OpenAI 还在耍宝似的“老铁快看我多美”十二天连续发布会呢,Google 悄咪且鸡贼地亮出了 Gemini 2.0——一个被其 CEO 劈柴称为“为新智能体时代构建的下一代模型”。
其所有的重点特征都聚焦在了能带来新一代的、真实可用的智能体之上了:根据目前公布的信息,在搜索、浏览器、学术科研、代码开发,甚至游戏助手等场景下的智能体使用体验,都会被 Gemini 2.0 重塑升级。
Gemini 2.0 的 Flash(轻巧快速尺寸) 体验版自今日起已经开放给全部 Gemini 用户,立等可用;最新的 Deep Research 也已经对所有Gemini Advanced 用户开放(这个功能类似于科研学术助手,可以帮助个人分析理解复杂的科研项目,并撰写研究报告)——吸取了之前的教训,终于不用再因为“画饼发期货”而被吐槽了。
其余将在明年年初推出的新功能智能体中,还真有这么几个很有趣的东西:
(我们惦记的是它么?我们惦记的事每次展示 Astra 都出现的那个新眼镜~)
Project Astra 是在今年 I/O 大会上推出的多模态智能体应用,你可能还记得当时那段在 Deepmind 伦敦办公室利用其找东西的惊艳宣传片。基于 Gemini 2.0 的 Project Astra 会被赋予更强升级:
- 新版 Project Astra 可以听懂多种语言和混合语言的对话,对不同口音和生僻单词也更加包容(你看,虽然你讨厌中英夹杂,但是人家 AI 就很大度);
- 可以调用 Google Search、Google Lens 和 Google Maps,让这个助手的价值变得更加日常高频。演示视频中就出现了典型的查询门禁密码、查询水洗标和洗衣机功能档位、骑行路途中实时查询店铺和街景信息等;
- 新的 Project Astra 最多可以记住长达 10 分钟的对话内容(这已经比开会时候的我强不少了);
- 能够理解人类对话中的延迟(嗯……嘿……那个……是吧……挺适合用来理解相声的……)
Project Mariner 是个 Gemini 2.0 之下的新玩意,一个在浏览器场景下提供交互的新功能——它的理解和交互范畴包括了浏览器页面(是浏览器,而非单一网页)中的像素、图像、文字、表单和代码等,通过Chrome 扩展程序来实现。
在一项针对智能体在端到端的真实世界网页任务的性能测试里(WebVoyager 测试),Project Mariner 实现了 83.5% 的工作效率,属于目前最先进的水平。
也正因为浏览器场景下这些更加复杂多变的任务,以及个人隐私、交易安全等可能的风险因素,Google 在发布的同时也承认了:测试中的 Project Mariner 仍处在速度慢、准确率不理想的早期状态。
另一个 Gemini 2.0 带来的新玩意,一个可以直接集成到 GitHub 工作流当中的 AI 代码智能体。
Google 还称,利用 Gemini 2.0 构建了一种“游戏助手”智能体,根据游戏进度实时分析战况、做出决策建议。他们正在同一些大型游戏开发商进行合作,目前测试中的知名游戏,比如《部落冲突》和《海岛奇兵》等。
乐观地想,当年要是有这么个玩意,我的联盟小猎人也不会被三季稻老师秒杀那么多次了……
按照劈柴在公开信中的说法,“如果说 Gemini 1.0 是整合和理解信息,那么 Gemini 2.0 能够让信息更加有用。”若真能如此,那会令我对这个被 AI 命名的时代更有信心。