专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
大数据文摘  ·  Gemini ... ·  昨天  
大数据分析和人工智能  ·  免费领取DeepSeek教程 ·  2 天前  
天池大数据科研平台  ·  谷歌反击,最强Gemini ... ·  2 天前  
51好读  ›  专栏  ›  大数据文摘

Gemini 2.0霸榜,价格卷哭DeepSeek V3,性价比新王诞生!

大数据文摘  · 公众号  · 大数据  · 2025-02-07 12:59

正文

大数据文摘受权转载自夕小瑶科技说
谷歌 Gemini 2.0 家族终于凑齐了!出手即霸榜。

在 Deepseek、Qwen 和 o3 的围追堵截下,今天凌晨,谷歌一口气连发了三款模型:Gemini 2.0 Pro、Gemini 2.0 Flash ,Gemini 2.0 Flash-Lite:


在大模型 LMSYS 排行上,Gemini 2.0-Pro 冲到了第一名,Gemini-2.0 家族都挺进了前 10。


先看模型性能


这次发布的 Gemini 2.0 三个模型性能上都有各自的亮点!

Gemini 2.0 Pro (Experimental)


作为 Gemini 系列的旗舰模型,Pro 版本代表了当前 Google 最先进的 AI 能力,尤其在编码和推理方面表现出类拔萃的性能:
  • 超大上下文窗口:支持高达2M tokens 的上下文处理能力
  • 工具集成能力强大:深度整合 Google 搜索与代码执行功能
  • 可用性说明:已在 Google AI Studio、Vertex AI 以及 Gemini Advanced 平台以实验版本形式上线

Gemini 2.0 Flash


这款模型定位为“高效主力模型”,设计上侧重于速度与性能的平衡,旨在为需要低延迟响应的应用场景提供理想支持:

  • 百万级上下文窗口:支持 1M tokens 上下文
  • 优秀的多模态推理能力:擅长处理多模态数据,目前支持多模态输入和单模态文本输入
  • 未来功能拓展:图像生成与文本转语音功能即将推出
  • 可用性说明:已在 Vertex AI Studio 和 Google AI Studio 平台正式发布,可通过 Gemini API 接入。


Gemini 2.0 Flash-Lite (Preview)


作为“最具成本效益”的模型,Flash-Lite 在速度、成本和性能之间实现了最佳平衡点。
  • 高性价比优势:与 1.5 Flash 相同速度和成本的前提下,多数基准测试中超越 1.5 Flash。
  • 百万级上下文窗口:同样支持 1M tokens 上下文处理能力。

根据谷歌放出来的性能评估对比可以看出,Gemini 2.0 Pro Experimental 版本在几乎所有基准测试中都取得了最高分,表现出色:


尤其是在代码生成任务(如 LiveCodeBench v5)和复杂数学问题(如代数、几何和微积分)上的表现尤为出色。此外,在复杂的长文档理解测试中,成绩也显著提升。

再看定价


从 API 性价比看,谷歌也是良心大厂。


Gemini 2.0 Flash 的百万 Token 输入一块钱都不到。。。。支持多模态,支持联网搜索,更牛的是,前无古人的上下文窗口。

作为对比的 Deepseek V3, 目前的价格是百万输入 1 块钱,R1 推理是 4 块钱。

ps:不过还是要感谢 DeepSeek 把价格打下来,能打下来价格的就是家人 hhh

这真的太便宜了!相比性能,我觉得 Gemini 被忽略的是价格!

case 表现


既然号称和 Deepseek 一样能打,我们肯定要看看实际 case 表现咋样,看看各路网友们的测试整活儿吧 ~

基于物理引擎的弹球游戏


先看看这个爆火的 case,使用物理引擎模拟逼真的碰撞、摩擦、重力等效果。
提示词:编写一个 Python 程序,显示球在旋转的六边形内弹跳。球应该受到重力和摩擦力的影响,并且必须逼真地从旋转的墙壁上反弹
这是 Deepseek R1 和 o3-min 的表现:
Gemini 2.0 Pro Experimental 生成的版本:
文如老狗!和 o3 mini 不相上下。

Gemini 2.0 Flash:


呃,翻车了。

Gemini 2.0 Flash-Lite :


一上来就翻。

难度加倍!让小球变成 100 个小球!
提示词:为球体内 100 个弹跳的亮黄色球编写脚本,确保正确处理碰撞检测。使球体缓慢旋转。确保球保持在球体内。在 p5.js 中实施
嗯!不错呀!球体缓慢旋转很流畅,模拟物理规律也很优秀,100 个小球也在“各司其职”地稳稳碰撞 ~

再来一个:

编写一个 p5.js 脚本,模拟在一个圆柱形容器的真空空间中反弹的 25 个粒子。每个球使用不同的颜色,并确保它们留下轨迹来显示它们的运动。添加容器的缓慢旋转,以便更好地观察场景中发生的事情。确保创建适当的碰撞检测和物理规则,以确保粒子保持在容器内。添加一个外部球形容器。为整个场景添加一个缓慢的放大和缩小效果。


绕不过去的草莓考题


还有聪明(狡猾)的网友又甩出了经典的草莓考题:
How many r's are there in strawberry
但是!结果非常令人意外,Gemini 2.0 Pro Experimental 竟然答错了!


而 Gemini 2.0 Flash Thinking Experimental 却答对了:


谷歌大佬 Jeff Dean 亲自下场测试编程能力


Google DeepMind 和 Google Research 的首席科学家 Jeff Dean 还测试了一波 Gemini 2.0 Pro 的编程能力:


让模型完成经典的 Boggle 游戏,第一次生成的代码就完成了在 “字母方块” 的游戏中找到所有有效的单词:


而且,Jeff Dean 说这个代码完成的耗时只有 18.9 秒,速度非常快。







请到「今天看啥」查看全文