专栏名称: 数字化企业

e-works（数字化企业网）是我国领先、全球知名的智能制造专业媒体、咨询培训与研究机构，由著名制造业专家、中国机械工程学会理事长李培根院士创立。本号专注于智能制造、工业互联网、数字化转型干货知识传播。

Google DeepMind宣布：全球最强AI模型正式发布！Gemini用户可免费使用

数字化企业 · 公众号 · · 2025-02-07 16:55

正文

AI圈竞争白热化！推理模型集中上阵，爆款一条接着一条。谷歌DeepMind在2月6日祭出大杀器Gemini 2.0家族，四款模型 全部跻身 大模型开源基准测试平台LMArena前十名，围攻Deepseek！

- 文章信息 -

本文由e-works祖哥综合报道。

2月6日消息，Google Deepmind旗下AI大模型Gemini官宣：

“今天，我们发布了全球排名第一的 AI 模型（由@lmarena_ai评测）——2.0 Flash Thinking Experimental，Gemini 应用用户可免费使用。此外，我们还推出了 2.0 Flash Thinking 的另一个版本，可与您熟悉和喜爱的应用进行交互，例如 @YouTube、@Google搜索和 @GoogleMaps。”

据笔者了解 ，lmarena.ai里面的评测平台Chatbot Arena是一个开放平台，旨在通过人类偏好评估大型语言模型（LLMs）， 由加州大学伯克利分校 SkyLab 和 LMArena 的研究人员主持。 该平台采用匿名、随机化的对战方式，让不同的聊天机器人进行对抗评测，并通过用户投票产生排行榜。 Chatbot Arena 的评测过程涵盖了从用户直接参与投票到盲测，再到大规模的投票和动态更新的评分机制等多个方面， 这些因素共同作用，确保了评测的客观性、权威性和专业性。

谷歌2月6日发布Gemini 2.0家族，当时更新的排行数据是2月4日。可以看到在 UB排行规则（Upper-Bound，上界排名）下，四款模型（针对不同的任务和性价比）评分全部位于前10。

而今天我再看， 数据已更新到了2月5日，排名并无太大变化，o3-mini稍稍超越Gemini-2.0-Flash-Lite-Preview，挤进前十。DeepSee-R1依然稳居高位。

值得一提的是， 目前排名第一的增强推理模型Gemini-2.0-Flash-Thinking-Experimental，可以免费在Google Gemini的网页端和App端使用。

下面笔者将为大家视频演示前两天出过的一个题目 “Deepseek这个单词中有几个e” 以及 “ GreenGrass这个单词中有几个e和几个s ” 这两个问题，看其回答如何：

这两个问题前两天我专门发过一篇文章测试过一众模型，大家可以点击回顾。gpt-4o以及claude-3.5-sonnet事实上都已经算非常强大和旗舰的模型了，包括国内的大部分模型都会答错。 即使是OpenAI紧随发布的推理模型o3-mini回答也是错误的。

但是，Gemini-2.0-Flash-Thinking-Experimental这个模型，是真的强大。反应速度之快，回答之准确，包括推理过程的展示。 就单个测试的结论而言，我认为是完全在R1之上的，排名第一没有问题。大家可自行测试。

另外，再给大家展示一段视频内容， 那就是Gemini-2.0-Flash-Thinking-Experimental-with-apps，可以与谷歌的一些常用应用进行互动如油管、谷歌地图等等。 我在没有看李子柒视频的情况下，让 该强推理模型迅速从Youtube应用中找到她的频道以及最新的视频，包括总结出核心的内容：

以上只是简单的案例小展示， 大家可以按照自己的目的，做的事情非常多。

这个宣传语很好的概括了它的特点，一个小测试我是深有体会—— “2.0 Flash Thinking-Experimental 兼具速度与性能，并在科学和数学领域表现出色，展现出其解决复杂问题的思维能力。”

Google Deepmind的CTO——Koray Kavukcuoglu也发布了一篇文章 郑重的宣布了这一好消息并逐一介绍Gemini 2.0家族的几款模型的特点。

需要说明的是： 这些尾部 带有experimental 的实验模型旨在提供早期预览，可能会出现意外行为并产生错误。 此外，在实验阶段， 这些模型无法获取实时信息 ，也不兼容某些 Gemini 功能。

以Deepseek R1这款强推理模型开源为导火索，随后半个月时间左右，陆续发布了多个极具影响力的推理模型如Qwen-2.5-Max、o3-mini以及现在的Gemini 2.0大家族。 以OpenAI描绘的通往AGI发展过程中的五大层级来看，目前AI圈正在大力推进Level 2阶段——具备深度思考、推理和人类水平的问题解决能力。

当然， OpenAI也在实验性的探索Agent，几天前展示了他们的第一个agent——Operator， 可以自动化的处理一些简单任务。

Google DeepMind宣布：全球最强AI模型正式发布！Gemini用户可免费使用

正文

请到「今天看啥」查看全文