在科技日新月异的今天,人工智能领域的竞争愈发激烈。就在OpenAI举办其备受瞩目的OpenAI Day 5之际,谷歌却悄然放出了大招——新一代原生多模态模型Gemini 2.0 Flash正式发布,瞬间在业界掀起了轩然大波。这一消息不仅让OpenAI的风头被抢,更标志着智能体时代的新篇章已经到来。
就在昨天深夜,谷歌CEO劈柴(Sundar Pichai)、DeepMind CEO哈萨比斯(Demis Hassabis)以及DeepMind CTO Kavukcuoglu三位大佬联手官宣,新一代原生多模态模型Gemini 2.0 Flash正式发布。这一消息如同一枚重磅炸弹,瞬间引爆了整个科技圈。
Gemini 2.0 Flash作为新系列的最小杯,其性能却已经超越了上一代的大哥1.5 Pro,而且速度提高了一倍。更令人震惊的是,它的性能完全超越了o1-preview和o1-mini,仅次于GPT-4o(2024-11-20)。这一数据无疑让人们对Gemini 2.0 Flash充满了期待。
多模态、多语言,Gemini 2.0 Flash大放异彩
Gemini 2.0 Flash不仅性能强劲,而且支持多模态输入输出,包括图像、视频和音频等。此外,它还具备出色的多语言能力,可以原生调用谷歌搜索等工具。这使得它在处理复杂任务时更加得心应手。
在SWE-bench Verified基准上,Gemini 2.0 Flash直接击败了完整版o1,展现出了其强大的编码能力。这一成绩无疑让谷歌在AI编码领域的竞争力得到了极大的提升。
除了新模型之外,谷歌还带来了一系列基于Gemini 2.0打造的智能体创新。这些智能体包括通用AI助手Project Astra、在浏览器中进行交互的智能体Project Mariner、为开发者打造的AI代码智能体Jules、游戏辅助智能体以及机器人智能体等。
Project Astra作为谷歌的又一力作,其在视觉识别和语音交互上与GPT-4o几乎不相上下。得到Gemini 2.0加持后,Project Astra的能力更是得到了全面提升。它不仅支持多种语言对话,还支持混合语言交谈,对口音和生僻词的理解也更加出色。此外,Project Astra还可以调用谷歌搜索、Lens和地图功能,让其作为日常生活助手变得更加实用。
在演示视频中,我们可以看到Project Astra的多模态能力得到了淋漓尽致的展现。无论是识别门禁码、提供洗衣建议,还是介绍伦敦街头的雕塑来历,Project Astra都能轻松应对。更令人惊叹的是,它还能记住用户之前的对话内容,从而提供更加个性化的服务。
浏览器中的智能体,Project Mariner大放异彩
Project Mariner作为基于Gemini 2.0构建的早期研究原型,其核心能力在于卓越的信息理解和分析能力。它能够全面感知浏览器屏幕上的各种信息,包括像素级精准识别和网页元素智能分析等。
在演示中,Project Mariner展示了其强大的信息提取和处理能力。它不仅能够读取表格中的内容,还能通过搜索找到相关公司的官网,并提取出邮箱地址等信息。这一能力无疑让人们对智能体在浏览器中的应用充满了期待。
在业界权威的WebVoyager基准测试中,Project Mariner也交出了令人惊艳的成绩单。作为单一AI智能体系统,它在真实网络任务的端到端测试中取得了惊人的83.5%成功率。这可能意味着AI已经能够相对准确地模仿人类在互联网上完成任务的行为。
随着AI代码助手的迅速发展,它已经从基础的代码搜索工具进化为深度融入开发者工作流程的智能助手。搭载了代码执行工具的Gemini 2.0 Flash在评测真实软件工程任务的基准SWE-bench Verified中取得了51.8%的优异成绩。这使得由Gemini 2.0驱动的AI代码智能体Jules成为了开发者的得力助手。
Jules可以异步工作并与GitHub工作流程集成,帮助开发者处理bug修复和其他耗时的任务。它还能制定全面的多步骤计划来解决问题,高效地修改多个文件,甚至准备拉取请求直接将修复合并回GitHub。这一能力无疑将极大地提高开发者的生产力和工作效率。
游戏、机器人领域,Gemini 2.0展现无限潜力