专栏名称: Dots机构投资者社区
机构投资者组成的社区,深度点评财经事件
目录
相关文章推荐
春江潮起  ·  国足0-1沙特,继续小组垫底 ·  16 小时前  
春江潮起  ·  国足0-1沙特,继续小组垫底 ·  16 小时前  
青岛日报  ·  一觉醒来,国足输了!小组垫底 ·  19 小时前  
青岛日报  ·  一觉醒来,国足输了!小组垫底 ·  19 小时前  
51好读  ›  专栏  ›  Dots机构投资者社区

谷歌Gemma 3上线!单GPU最强多模态手机可跑,27B完胜o3-mini

Dots机构投资者社区  · 公众号  ·  · 2025-03-13 08:15

正文

本文转自微信公众号“新智元”,作者:新智元。

图片




编辑:编辑部
【导读】 谷歌Gemma 3来了,1B、4B、12B和27B四种参数,一块GPU/TPU就能跑!而Gemma 3仅以27B就击败了DeepSeek 671B模型,成为仅次于DeepSeek R1最优开源模型。

谷歌Gemma 3全家桶来了!

在巴黎开发者日上,开源Gemma系模型正式迭代到第三代,原生支持多模态,128k上下文。

此次,Gemma 3一共开源了四种参数,1B、4B、12B和27B。最最最关键的是,一块GPU/TPU就能跑模型。

在LMArena竞技场中,Gemma 3拿下了1339 ELO高分,仅以27B参数击败了o1-preview、o3-mini high、DeepSeek V3,堪称仅次于DeepSeek R1最优开源模型。

图片
Gemma3系1B、4B、12B、27B分别基于2T、4T、12T、14T token数据完成训练。
它们可以理解140+语言,支持视觉输入和文本输出,以及结构化输出和函数调用。
图片
在多项基准测试中,Gemma 3全家桶相较于上一代实现了全面提升,27B模型在数学性能暴涨33-45分。
而且,与闭源Gemini 1.5和2.0相比,Gemma 3-27B基本上略逊色于Flash版本。
图片
与此同时,Gemma 3的26技术报告解禁。

图片

论文地址:https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf

项目地址:https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d
Gemma系模型诞生一年以来,下载量已超1亿次,超6万个Gemma衍生模型爆发。
Gemma 3全新系列到来,成为谷歌在AI开源社区迈出的又一个里程碑。

27B打进全球Top 10,手机笔记本轻松跑

Gemma 3是谷歌迄今最先进、最便携的开源模型,采用与Gemini 2.0模型相同的研究和技术打造。
专为在端侧设备上直接运行而设计——从手机和笔记本电脑到工作站,帮助开发者在需要的地方创建AI应用。
图片
  • 使用世界最佳单设备加速模型进行开发: Gemma 3在LMArena排行榜的初步人类偏好评估中超越了Llama-405B、DeepSeek-V3和o3-mini,能在单个GPU或TPU主机上运行,开发独特的用户体验。

  • 支持140种语言,走向全球: Gemma 3为超过35种语言提供开箱即用的支持,并为超过140种语言提供预训练支持。

  • 创建具有高级文本和视觉推理能力的AI: 轻松开发可以分析图像、文本和短视频的应用程序,为交互式和智能应用开创新的可能性。

  • 通过扩展的上下文窗口处理复杂任务: Gemma 3提供128k token的上下文窗口,让应用程序能够处理和理解海量信息。

  • 使用函数调用创建AI驱动的工作流: Gemma 3支持函数调用和结构化输出,帮助你实现任务自动化并构建智能体验。

  • 使用量化模型更快实现高性能: Gemma 3推出官方量化版本,在保持高精度的同时减少模型大小和计算需求。

图片

按照Chatbot Arena Elo评分对AI模型进行排名;更高的分数(顶部数字)表示更受用户青睐。点状标记显示了估计所需的H100数量。Gemma 3 27B 获得了很高的排名,注意,其他模型需要多达32个GPU,但它只需要1个

如何训出?

在预训练和后训练过程中,Gemma 3使用了蒸馏技术,并通过强化学习和模型合并的组合,进行了优化。
这种方法可以提升数学、编码、指令跟随方面的性能。
而且,Gemma 3使用了一个全新的分词器(tokenizer),为140多种语言提供支持,并使用JAX框架在Google TPU对1B的2T token,4B的4T token,12B的12Ttoken和27B的14Ttoken进行了训练。
在后训练阶段,Gemma 3主要使用了4个组件:
  • 从更大的指令模型中提取到Gemma 3预训练检查点
  • 基于人类反馈的强化学习( RLHF ),使模型预测与人类偏好保持一致。
  • 机器反馈强化学习(RLMF),增强数学推理。
  • 强化学习执行反馈(RLEF),提高编码能力。

这些更新显著提升了模型数学、编程、指令跟随能力,使Gemma 3能在LMArena拿下1338得分。
图片
Gemma 3指令微调版本使用了与Gemma 2相同对话框格式,因此,开发者不需要更新工具,直接可以进行纯文本输入。
对于图像输入,Gemma 3可以支持指定与文本交错的图像。

多模态

Gemma 3集成基于SigLIP集成视觉编码器,在训练过程中,视觉模型保持冻结状态,并在不同规模(4B、12B 和 27B)之间保持一致。
借助这一特性,Gemma 3能够处理图像和视频作为输入,使其能够分析图像、回答与图像相关的问题、对比图像、识别物体,甚至读取和解析图像中的文本。
尽管该模型最初设计用于处理896×896像素的图像,但通过一种新的自适应窗口算法,该模型可以对输入图像进行分割,使Gemma 3能够处理高分辨率和非正方形图像。
比如,上传一张日语空调遥控器图,问如何调高室内温度。
图片
Gemma 3根据图像中「暖房」文字,分析出在日语中,「暖房」意为「加热」,这是用于开启空调或气候控制系统的加热功能的按钮。
而带有加号(+)的按钮可能用于在选择加热模式后调整温度。
图片
下图上传超市购物清单后,Gemma 3准确回答了一片肉需要支付的金额。
图片

LLM竞技场

LMSYS聊天机器人竞技场是让真人评委一对一匿名地对比IT 27B模型和其他顶尖模型。
在表下5里列出了Elo分数。
Gemma 3 27B IT拿到了1338分,挤进了前十名,分数比其他不会「思考」的开源模型要高,比如 DeepSeek-V3(1318 分)、LLaMA 3 405B(1257 分)和Qwen2.5-70B(1257 分),这些模型的规模还比它大不少。






请到「今天看啥」查看全文