谷歌发布了Gemini 2.0 Flash,该模型实现了原生多模态输入输出,包括新的编码代理。其性能强大,速度比1.5 Pro快两倍。此外,它还具有多语种本地音频输出、原生图像输出、原生工具使用功能等。同时,开发人员可以使用多模态实时API构建实时的多模态应用程序。Jules代码助理也将使用Gemini 2.0,能够帮助开发人员处理bug修复等任务。
该模型可以同时处理文本、音频和图像等多种输入方式,并提供集成的响应。这些新的输出模式可供早期测试人员使用,预计明年将更广泛地推出。
相比1.5 Pro,其速度更快,同时在关键基准测试中改进了多模式、文本、代码、视频、空间理解和推理性能。改进的空间理解可以在杂乱图像中生成更准确的边界框,以及更好的对象识别和描述。
该模型为开发人员提供对模型说话内容以及说话方式的精细控制,并支持多种语言和口音。同时,它可以原生生成图像,支持会话式、多轮编辑。
该模型可以本地调用工具,如Google搜索和代码执行,以及通过函数调用调用自定义第三方函数。同时,它可以在SWE-bench Verified上实现高效的信息检索和修复任务。
该API支持自然对话模式,如中断和语音活动检测,并支持将多个工具集成在一起,以通过单个API调用完成复杂的用例。
谷歌的大招终于来了,发布了 Gemini 2.0 Flash 应该是第一家实现原生多模态输入输出的模型,而且还有新的编码代理,这些代理将通过替代开发人员采取行动来增强工作流程。
Gemini 2.0 Flash
Flash 2.0 的速度是 1.5 Pro 的两倍,同时实现了更强的性能,包括新的多模式输出,并附带原生的工具使用。
-
更好的性能:
Gemini 2.0 Flash 比 1.5 Pro 更强大,同时仍然提供开发人员期望的 Flash 速度和效率。它还在关键
基准测试
中改进了多模式、文本、代码、视频、空间理解和推理性能。改进的空间理解可以在杂乱图像中的小对象上生成更准确的边界框,以及更好的对象识别和描述。
-
-
原生多模态输出:
Gemini 2.0 Flash 生成包含文本、音频和图像的集成响应 - 所有这些都通过单个 API 调用实现。这些新的输出模式可供早期测试人员使用,预计明年将更广泛地推出。
原生工具使用:
Gemini 2.0 已经接受过训练使用工具-这是构建代理体验的基本能力。它可以本地调用工具,如 Google 搜索和代码执行,以及通过函数调用调用自定义第三方函数。将 Google 搜索本地用作工具可产生更准确和全面的答案,同时增加发布者的流量。可以同时运行多个搜索,从多个来源同时查找更多相关事实并将它们组合以提高信息检索准确性。
多模态实时API:
开发人员现在可以使用来自摄像头或屏幕的音频和视频流输入构建实时的多模态应用程序。支持自然对话模式,如中断和语音活动检测。该 API 支持将多个工具集成在一起,以通过单个 API 调用完成复杂的用例。
Jules代码助理
Jules
:可以执行任务的编码代理,2.0 Flash,在 SWE-bench Verified 上实现了 51.8%,该测试对代理在真实软件工程任务上的性能进行测试,Claude 3.5是49%。
Jules