专栏名称: Founder Park

来自极客公园，专注与科技创业者聊「真问题」。

谷歌发布Gemini 2.5 Pro：思考模型、原生多模态，编码、数学能力屠榜

Founder Park · 公众号 · · 2025-03-26 13:09

主要观点总结

本文主要介绍了谷歌的最新模型Gemini 2.5 Pro，它是一个具备强大推理能力的模型，能够在回应前进行思考和推理，提高性能和准确性。文章详细描述了Gemini 2.5 Pro的功能和特点，包括其超越其他模型的性能、在多个领域取得的胜利以及即将推出的功能。此外，文章还介绍了谷歌在AI领域的持续探索和创新，以及模型的定价方案和开发者社群的建立。

关键观点总结

关键观点1: Gemini 2.5 Pro的推出

谷歌推出了全新的模型Gemini 2.5 Pro，它具备思考功能，能在回应前进行推理，提升了性能和准确性。被称为世界上最强大的模型。

关键观点2: 模型的卓越性能

Gemini 2.5 Pro在多个基准测试中达到了SOTA水平，并在LMArena上排名第一。它在数学、创意写作、指令遵循、长查询和多轮对话等领域均取得显著成就。

关键观点3: 模型的推理和代码能力的大幅提升

谷歌表示，系统的「推理」能力包括分析信息、得出逻辑结论、融入上下文和细微差别等。Gemini 2.5 Pro展现了强大的推理和代码能力，在编程、数学和科学基准测试中均领先。

关键观点4: 模型的多模态和超长上下文能力

Gemini 2.5 Pro继承并发扬了Gemini模型的优势，具有原生多模态能力和超长上下文长度。它支持处理来自多种信息源的复杂问题，并理解海量数据集。

关键观点5: 模型的未来发展和应用

Gemini 2.5 Pro的定价方案将在未来几周内公布。此外，开发者社群也正在搭建中，为开发者提供交流、资源对接和案例宣传的机会。

正文

请到「今天看啥」查看全文

文章转载自「新智元」。

谷歌的全新模型Gemini 2.5 Pro，深夜上线了！

Gemini 2.5 Pro是一个「思考」模型，能够在回应前先进行思考推理，从而提升性能，并改善准确性。

谷歌称，它是世界上最强大的模型，具备统一的推理能力，以及用户所喜爱的Gemini的所有功能（长上下文、工具等）。

它在多个基准测试中达到了SOTA水平，并且以显著的优势在LMArena上排名第一。

现在，Gemini 2.5 Pro已经登顶了Arena排行榜的第一位，而且创下了历史最大分数飞跃，比Grok-3/GPT-4.5整整高出了40分！

在代号「nebula」的测试中，它也横扫所有类别夺得第一，并且独揽数学、创意写作、指令遵循、长查询和多轮对话五大领域的冠军！

在困难提示词和编程两大领域，它与Grok-3/GPT-4.5拿到了并列冠军，而且在所有其他比拼中都以微弱优势胜出，成功问鼎榜首！

此外，Gemini 2.5 Pro还成功登顶了视觉竞技场（Vision Arena）排行榜榜首！

在网页开发领域，它也同样大放异彩，成功斩获网页开发竞技场（WebDev Arena）亚军宝座！

它是首个实力媲美 Claude 3.5 Sonnet 的模型，相比之前版本的Gemini更是实现了质的飞跃。

目前，Gemini 2.5 Pro已在Google AI Studio和Gemini应用中，向Gemini Advanced用户开放，并将很快在Vertex AI上推出。

而它的定价方案，会在未来几周内公布，用户可以在更高使用配额下，将模型应用于大规模生产环境。

网友实测后发现，它果然实力惊人，在所有模型中效果拔群，第一次尝试就只用几秒解决了一道难题。

Founder Park 正在搭建开发者社群，邀请积极尝试、测试新模型、新技术的开发者、创业者们加入，请扫码详细填写你的产品/项目信息，通过审核后工作人员会拉你入群～

进群之后，你有机会得到：

高浓度的主流模型（如 DeepSeek 等）开发交流；
资源对接，与 API、云厂商、模型厂商直接交流反馈的机会；
好用、有趣的产品/案例，Founder Park 会主动做宣传。

01 推理和代码能力大幅提升

谷歌表示，在AI领域，系统的「推理」能力不仅仅指分类和预测，而是指系统分析信息、得出逻辑结论、融入上下文和细微差别，以及做出明智决策的能力。

长期以来，谷歌一直在探索通过强化学习和思维链提示词等技术，让AI更智能、更具推理能力的方法。

正是在此基础上，他们在2月推出了第一个思考模型，Gemini 2.0 Flash Thinking。

而今天，通过Gemini 2.5，他们结合了显著增强的基础模型和改进的后期训练，让模型达到了新的性能水平。

Gemini 2.5 Pro展现出了强大的推理和代码能力，在常见的编程、数学和科学基准测试中均处于领先地位。

另外，在各类需要高级推理能力的基准测试中，它都达到了SOTA水平。

无需使用测试阶段会增加计算成本的技术（如多数投票法），2.5 Pro就能在GPQA和 AIME 2025等数学和科学基准评测中表现卓越。

而且，在不使用任何外部工具的条件下，它就在挑战人类知识和推理能力的极限前沿「人类最后的考试」中取得了18.8%的准确率，达到业界领先。

在编程能力上，Gemini 2.5相比2.0版本也实现了质的飞跃，而这，仅仅是个开始。

2.5 Pro在创建视觉精美的网页应用和AI智能体代码应用方面都表现卓越，在代码转换和编辑领域中，也同样实力出色。

在智能体代码评估的行业标准测试SWE-Bench Verified上，Gemini 2.5 Pro靠使用自定义智能体配置，就获得了63.8%的优异成绩。

以下这波demo，就展示了Gemini 2.5 Pro如何运用强大推理，仅通过一行提示词，就能生成可执行代码，来创建完整的动画和游戏。

在下面这个demo中，仅仅根据下面这行prompt，它就生成了一段p5js的交互式动画，展示了「宇宙鱼」的场景，并且还显示了鱼们都在想什么。

它还根据以下prompt，生成了一个无限的恐龙跑酷游戏。

按照要求，它生成了像素化的恐龙图像和有趣的游戏背景。

随后，Gemini 2.5 Pro还通过编程实现了分形可视化。

它创建出了精细分形图案的模拟程序，展现出了神奇的曼德布洛特集合。

此外，它还能构建一个交互式气泡图，直观展示出了每个大陆的经济与健康指标随时间的变化。

或者用一段交互式的Javascript动画，展示了旋转六边形内多彩的人工生命群体，并且按要求做成了「超新星星云」的感觉。

另外，它还能开发粒子系统模拟，给出了一个HTML文件，创造出了反射星云的沉浸式交互模拟场景。

02 原生多模态和超长上下文

Gemini 2.5继承并发扬了Gemini 模型的优势——原生多模态能力和超长上下文长度。

自己发布之初，2.5 Pro就支持100万token的上下文窗口（而200万token也即将推出！），性能显著超越了前代模型。

这能让它理解海量数据集，并处理来自多种信息源的复杂问题，包括文本、音频、图像、视频，甚至完整的代码仓库。

最后，既然谷歌已经掏出了地表最强模型，接下来，就让我们坐等OpenAI的反应了。

参考资料：

https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking

https://deepmind.google/technologies/gemini/pro/

https://x.com/lmarena_ai/status/1904581128746656099

更多阅读

OpenAI上新：GPT-4o生图功能，实测很强，20+场景示例&缺陷整理

拾象科技万字详解MCP：Agentic AI中间层最优解，以及创业公司的三个机会

阿里开源Qwen2.5-VL新版本，视觉推理通杀，32B比72B更聪明

DeepSeek发布V3更新：代码和审美有了质的提升，附5大维度测评

转载原创文章请添加微信：founderparker