专栏名称: 数字化企业
e-works(数字化企业网)是我国领先、全球知名的智能制造专业媒体、咨询培训与研究机构,由著名制造业专家、中国机械工程学会理事长李培根院士创立。本号专注于智能制造、工业互联网、数字化转型干货知识传播。
目录
相关文章推荐
生态梦网  ·  正在公示!滨海新区拟规划这些道路... ·  11 小时前  
手游那点事  ·  2025春节档最大赢家:超8000万日活之后 ... ·  4 天前  
51好读  ›  专栏  ›  数字化企业

Google DeepMind宣布:全球最强AI模型正式发布!Gemini用户可免费使用

数字化企业  · 公众号  ·  · 2025-02-07 16:55

正文





AI圈竞争白热化!推理模型集中上阵,爆款一条接着一条。谷歌DeepMind在2月6日祭出大杀器Gemini 2.0家族,四款模型 全部跻身 大模型开源基准测试平台LMArena前十名,围攻Deepseek!
- 文章信息 -


本文由e-works祖哥综合报道。


2月6日消息,Google Deepmind旗下AI大模型Gemini官宣:


“今天,我们发布了全球排名第一的 AI 模型(由@lmarena_ai评测)——2.0 Flash Thinking Experimental,Gemini 应用用户可免费使用。此外,我们还推出了 2.0 Flash Thinking 的另一个版本,可与您熟悉和喜爱的应用进行交互,例如 @YouTube、@Google搜索和 @GoogleMaps。”



据笔者了解 ,lmarena.ai里面的评测平台Chatbot Arena是一个开放平台,旨在通过人类偏好评估大型语言模型(LLMs), 由加州大学伯克利分校 SkyLab 和 LMArena 的研究人员主持。 该平台采用匿名、随机化的对战方式,让不同的聊天机器人进行对抗评测,并通过用户投票产生排行榜。 Chatbot Arena 的评测过程涵盖了从用户直接参与投票到盲测,再到大规模的投票和动态更新的评分机制等多个方面, 这些因素共同作用,确保了评测的客观性、权威性和专业性。



谷歌2月6日发布Gemini 2.0家族 ,当时更新的排行数据是2月4日。可以看到在 UB排行规则(Upper-Bound,上界排名)下,四款模型(针对不同的任务和性价比)评分全部位于前10。



而今天我再看, 数据已更新到了2月5日,排名并无太大变化,o3-mini稍稍超越Gemini-2.0-Flash-Lite-Preview,挤进前十。DeepSee-R1依然稳居高位。



值得一提的是, 目前排名第一的增强推理模型Gemini-2.0-Flash-Thinking-Experimental,可以免费在Google Gemini的网页端和App端使用。


下面笔者将为大家视频演示前两天出过的一个题目 “Deepseek这个单词中有几个e” 以及 GreenGrass这个单词中有几个e和几个s 这两个问题,看其回答如何:



这两个问题前两天我专门发过一篇文章测试过一众模型,大家可以 点击回顾 。gpt-4o以及claude-3.5-sonnet事实上都已经算非常强大和旗舰的模型了,包括国内的大部分模型都会答错。 即使是OpenAI紧随发布的推理模型o3-mini回答也是错误的。



但是,Gemini-2.0-Flash-Thinking-Experimental这个模型,是真的强大。 反应速度之快,回答之准确,包括推理过程的展示。 就单个测试的结论而言,我认为是完全在R1之上的,排名第一没有问题。大家可自行测试。


另外,再给大家展示一段视频内容, 那就是Gemini-2.0-Flash-Thinking-Experimental-with-apps,可以与谷歌的一些常用应用进行互动如油管、谷歌地图等等。 我在没有看李子柒视频的情况下,让 该强推理模型迅速从Youtube应用中找到她的频道以及最新的视频,包括总结出核心的内容:



以上只是简单的案例小展示, 大家可以按照自己的目的,做的事情非常多。



这个宣传语很好的概括了它的特点,一个小测试我是深有体会—— “2.0 Flash Thinking-Experimental 兼具速度与性能,并在科学和数学领域表现出色,展现出其解决复杂问题的思维能力。”


Google Deepmind的CTO——Koray Kavukcuoglu也发布了一篇文章 郑重的宣布了这一好消息并逐一介绍Gemini 2.0家族的几款模型的特点。



需要说明的是: 这些尾部 带有experimental 的实验模型旨在提供早期预览,可能会出现意外行为并产生错误。 此外,在实验阶段, 这些模型无法获取实时信息 ,也不兼容某些 Gemini 功能。


以Deepseek R1这款强推理模型开源为导火索,随后半个月时间左右,陆续发布了多个极具影响力的推理模型如Qwen-2.5-Max、o3-mini以及现在的Gemini 2.0大家族。 以OpenAI描绘的通往AGI发展过程中的五大层级来看,目前AI圈正在大力推进Level 2阶段——具备深度思考、推理和人类水平的问题解决能力。



当然, OpenAI也在实验性的探索Agent,几天前展示了他们的第一个agent——Operator, 可以自动化的处理一些简单任务。








请到「今天看啥」查看全文