主要观点总结
Gemini 2.0新模型及AI智能体亮相,带来多项新特性和改进。包括Flash型号性能增强,多模态输入和输出,以及基于Gemini 2.0构建的AI智能体等。Google还发布了Deep Research功能,能够自动完成复杂的研究任务。同时,Gemini 2.0的进展得益于全栈投资及Trillium等定制硬件的支持。
关键观点总结
关键观点1: Gemini 2.0新模型的特点和改进
包括性能增强,多模态输入输出,原生工具使用等功能。基于Gemini 2.0构建的AI智能体,能够渗透用户日常生活的每个场景。
关键观点2: Deep Research功能的发布
Deep Research结合了Google的搜索专长和Gemini的高级推理能力,能够自动完成复杂的研究任务,为用户提供清晰条理的研究报告。
关键观点3: Google AI智能体的多款新产品
包括Project Astra、Project Mariner和Jules等。这些产品具备多语言对话能力、记忆能力、流媒体功能等,展示了AI智能体的未来潜力。
关键观点4: Gemini 2.0与Trillium硬件的结合
Trillium是Google的第六代TPU,为Gemini 2.0的训练和推理提供了全力支持。Gemini 2.0的进展得益于全栈投资及Trillium等定制硬件的支持。
正文
就在刚刚,Gemini 2.0 新模型用一记重拳暴击 OpenAI。
先说结论, Gemini 2.0 Flash 性能较上代有所长进,硬刚 Claude 3.5 Sonnet,但今天更重要的亮点或许是基于它打造的 AI Agents(智能体)。
这也得到了 Deepmind CEO Demis Hassabis 的强力背书:
「2025 年将是 AI 智能体的时代,Gemini 2.0 将是支撑我们基于智能体工作的最新一代模型。」
纵观今天发布的智能体项目,Google 的野心昭然若揭。
以最接地气的方式渗透用户日常生活的每个场景,
而当每个入口都成为可能,真正的通用型 AI 助手或许才刚刚开始。
关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察
Google 年底最强 AI 王炸来了,但还藏了一手?
不是 Pro,却胜似 Pro,是对 Gemini 2.0 Flash 的最好评价。
据官方介绍,原本主打效率和速度的 Flash 型号性能有所增强,不仅在多项基准测试功能超越了 Gemini 1.5 Pro,而且响应速度也提升了 2 倍。
不过仔细看看具体的基准测试数据,倒也不用太过兴奋。
Gemini 2.0 Flash 在 MMLU-Pro、MATH、GPQA 等各方面基准测试成绩都有所提升,但得分和 Claude 3.5 Sonnet 差不多。
当然,今天亮相的只是 Flash 型号,估计 Google 手里的 2.0 Pro 才是真正的杀手锏。
与此同时,2.0 Flash 还新增了许多值得关注的新功能。
除了支持图像、视频和音频等多模态输入,2.0 Flash 现在还支持多模态输出,比如原生生成的图像与文本结合,以及可操控的多语言文本转语音(TTS)音频。亦或者,它还可以原生调用工具,如 Google 搜索等。
现在,Gemini 2.0 Flash 现已在 Gemini API 在 Google AI Studio 和 Vertex AI 提供给开发者。而 Gemini 用户可以通过 PC 端访问 Gemini 2.0 Flash。
明年初,Gemini 2.0 预计将推送给更多 Google 产品。
博主 @legit_rumors 在体验 Gemini 2.0 Flash 过后,认为其得到的结果和 Gemini-Exp-1206 很相似,但要比后者要更快更强,在编程和逻辑推理能力上也大幅取胜。
网友 @slow_developer 让 gemini-2.0-flash-exp 写两段关于草莓「Strawberry」的诗歌,要求段落中却不能出现「e」,新模型的表现堪称满分。
值得一提的是,Google 2.0 正是采用了 Google 六代 TPU——Trillium 训练而成,以下是 Trillium 与前代产品的关键改进:
单个 Jupiter 网络结构中集成了 10 万个 Trillium 芯片
每美元的训练性能提高了 2.5 倍,每美元的推理性能提高了 1.4 倍
作为全球搜索引擎霸主,Google 也发布了基于 Gemini 1.5 Pro 的新功能 Deep Research。
类似于当下大火的深度 AI 搜索功能,它结合了 Google 的搜索专长和 Gemini 的高级推理能力,能够自动完成复杂的研究任务。
想象一下,假如你是一名研究生,需要准备机器人技术报告,关注自动驾驶车辆传感器趋势,需研究技术优缺点及未来发展,这通常耗时良久且需要在多个网页间交叉参考,寻找资料链接。
但现在你只需输入研究问题,Deep Research 就会制定研究计划并进行多轮网络搜索,最终生成一份包含关键发现的综合报告。这份报告不仅条理清晰,还包含原始来源链接,方便用户进一步探索。
该工具目前已在 Gemini Advanced 平台上线,仅支持英文版本,适用于 PC 端,预计将在 2025 年初推出移动应用。
据 Google AI Studio 的高级产品经理 Logan Kilpatrick 的体验反馈, Deep Research 在单次查询中就浏览分析了多达 145 个不同网站。
Google CEO Sundar Pichai 还在公开信中写道,此前推出的 AI Overviews 将集成 Gemini 2.0,从而提升复杂问题处理能力,
本周已经进行有限测试,预计明年推广,并扩展至更多国家和语言。
会写代码、能打游戏、懂浏览器,Google 新 AI 智能体到底强在哪?
赶在 2024 年的尾声,Google 终于端出了 AI 智能体大招。
毕竟,Gemini 2.0 Flash 的原生用户界面操作功能,以及其他改进,如多模态推理、长上下文理解、复杂指令的跟踪与规划、组合函数调用、原生工具使用和延迟性能的优化,所有这些功能协同工作,天然就适合 AI 智能体的发挥。
今天,Google 发布了多款 AI 智能体,有早已在 I/O 大会上亮相的 Project Astra,也有适用于浏览器的 Project Mariner,还有专为开发者打造的 AI 编程智能体 Jules。
基于 Gemini 2.0 构建的 Project Astra 具备多语言对话能力,能够更好地理解不同口音和不常见的词汇。
此外,Project Astra 的记忆能力也有所改进,现在具备最多 10 分钟的会话内记忆,能够记住更多用户与其过去的对话,从而能够提供更加个性化的服务。
并且,通过新的流媒体功能和原生音频理解,该 Project Astra 还可以以接近人类对话的延迟进行语言理解。基于此,我们不妨期待一下,Project Astra 能早日融入到 AI 智能眼镜等设备上。
第二个则是事先张扬的浏览器智能体 Project Mariner。
具体来说,它能够理解并推理浏览器屏幕上的信息,包括像素和网页元素(如文本、代码和图片),然后通过 Chrome 扩展程序来利用这些信息帮你完成任务。
WebVoyager 基准测试是一个用于评估多模态网络智能体性能的测试,主要是通过一系列复杂的基于视觉的任务,测试智能体处理图文输入、理解自然语言指令和在网站上执行动作的能力。
而 Project Mariner 在前者的测试中达到了 83.5% 的高分成绩,
但
在
完成任务时的准确度和速度仍有待提高。
考虑到隐私风险问题,Project Mariner 也没含糊,在执行某些敏感操作(如购买物品)之前,它会向用户请求最终确认。
第三个则是专为开发人员打造的 AI 编程智能体 Jules。
Jules 支持直接集成到 GitHub工作流中,专治各种 Bug,与其盯着满屏的 Bug发愁,不如直接把问题甩给 Jules。
还记得 Deepmind 前不久发布的基础世界模型 Genie 2 吗?
开局一张图,它就能生成一个3D 视频游戏场景。
Google 也使用 Gemini 2.0 构建了智能体,帮助用户在视频游戏的虚拟世界中进行导航。
类似于今年爆火的 AI 游戏搭
子
,它能够通过用户游戏屏幕上的动作来给出下一步操作建议,这对于模拟经营类游戏来说,堪称刚需。
除了探索虚拟世界中的整体能力,Google 还想将 Gemini 2.0 的空间推理能力应用于机器人身上,开发能在现实世界帮忙的智能体。
至于老生常谈的安全问题,Google 这次也算是做足了功课。
Gemini 2.0 Flash 和一系列智能体产品,将与测试人员、外部专家以及内部的责任与安全委员会(RSC)合作,进行广泛的评估。
来自 Google 和 Alphabet 首席执行官 Sundar Pichai 的致辞:
信息是人类进步的核心。这是我们过去 26 年致力于使命的原因——组织全球信息,并使其变得可访问和有用。我们也因此不断推动人工智能的前沿,以便跨所有输入方式组织信息,并通过任何输出方式让信息真正为你所用。
去年 12 月,当我们推出 Gemini 1.0 时,这正是我们的愿景。Gemini 1.0 和 1.5 作为首个原生多模态的模型,在多模态和长上下文的应用上取得了显著进展,能够理解文本、视频、图像、音频和代码等多种信息,并处理更多信息。