谷歌推出实验性AI推理大模型

InfoQ · 公众号 · 科技媒体 · 2025-02-05 14:50

主要观点总结

谷歌推出了一款名为Gemini 2.0 Flash Thinking Experimental的AI推理模型，该模型可在其AI Studio平台上使用。该实验性模型旨在通过推理复杂问题并解释思考过程来处理多模态任务。它采用结构化方法，整合出最准确的回答，但推理过程可能不稳定，且响应速度慢。模型需要更长的处理时间，这是与其推理能力做出的权衡。

关键观点总结

关键观点1: 实验性AI推理模型的目的

旨在通过推理复杂问题并解释思考过程来处理多模态任务，如编程、数学和物理问题。

关键观点2: 模型的工作方式

采用结构化方法，将提示词分解为更小的任务，分析相关上下文，整合出最准确的回答。

关键观点3: 模型的缺点和限制

推理过程可能不稳定，响应速度慢，需要更长的处理时间；缺少内置的搜索、代码执行或JSON模式等工具；回答的准确性和完整性可能参差不齐。

关键观点4: 模型的应用和前景

谷歌DeepMind首席科学家Jeff Dean认为该模型在推理过程中利用了扩展的计算能力以改善结果。AI Studio产品负责人Logan Kilpatrick将其描述为谷歌在探索以推理为中心的AI方面的初步尝试，并指出此次发布紧随AI推理模型的最新发展趋势。

正文

作者 | Daniel Dominguez

译者 | 明知山

策划 | Tina

谷歌推出 Gemini 2.0 Flash Thinking Experimental，一个在其 AI Studio 平台上可用的 AI 推理模型。这个实验性模型旨在通过推理复杂问题并解释其思考过程处理多模态任务，如编程、数学和物理问题。它基于 Gemini 2.0 Flash 模型，并与类似的模型（包括 OpenAI 的 o1）保持同步。

该模型采用结构化方法，将提示词分解为更小的任务，分析相关上下文，整合出最准确的回答。尽管如此，其推理过程可能并不稳定，例如在执行简单任务（如计算单词中的字母个数）时会出错。它支持最多 32000 个 Token 输入，包含文本和图像输入，并以纯文本格式输出最多 8000 个 Token。由于增加了额外的推理时间，模型的响应速度较慢，从几秒到几分钟不等。它缺少内置的搜索、代码执行或 JSON 模式等工具，回答的准确性和完整性也可能参差不齐。Gemini 2.0 Flash Thinking Experimental 需要更长的处理时间，这是与其推理能力做出的权衡。

谷歌 DeepMind 首席科学家 Jeff Dean 表示：

该模型在推理过程中利用了扩展的计算能力，以改善推理结果。

AI Studio 产品负责人 Logan Kilpatrick 将此次发布描述为：

谷歌在探索以推理为中心的 AI 方面做出的初步尝试。

此次发布紧随 AI 推理模型的最新发展趋势，竞争对手如 DeepSeek-R1 和阿里巴巴的千问也纷纷布局该领域。这些模型旨在提高生成式 AI 系统的准确性和可靠性，但同时也带来了高昂的计算成本和性能挑战，尤其是在传统的 AI 扩展方法已显示出收益递减的情况下。

开发人员可以通过 Gemini API (v1alpha) 或 Google GenAI SDK 访问该模型，支持文本和图像输入，并专注于透明推理工作流的集成。作为一款研究型产品，该模型存在一些限制，例如 Token 数量有限且缺少内置工具集成。

查看英文原文：

https://www.infoq.com/news/2025/01/google-deepmind-gemini/

声明：本文为 InfoQ 翻译，未经许可禁止转载。

今日好文推荐

10年了，开发人员仍然不明白 Electron 的意义

OpenAI“背水一战”：紧急上线Deep Research，比DeepSeek强三倍？网友直呼AI开源大战要来了！