专栏名称: AI科技大本营

为AI领域从业者提供人工智能领域热点报道和海量重磅访谈；面向技术人员，提供AI技术领域前沿研究进展和技术成长路线；面向垂直企业，实现行业应用与技术创新的对接。全方位触及人工智能时代，连接AI技术的创造者和使用者。

谷歌猛烈AI攻势来了！Gemini 1.5 Pro开放、首款Arm架构CPU、卷入视频模型大战

AI科技大本营 · 公众号 · · 2024-04-11 15:29

正文

作者 | 王轶群

责编 | 唐小引

出品丨AI 科技大本营（ID：rgznai100）

继Gemma、Gemini、Gemini 1.5相继发布之后，谷歌在人工智能的布局上又下一城。

在Cloud Next大会上，谷歌放出不少AI“炸弹”，包括Gemini 1.5 Pro正式开放、加入AI视频模型大战、发布代码模型CodeGemma，即将推出AI芯片等一系列密集动作。

Gemini 1.5 Pro 全面公测

刚发布就被Sora的光环所掩盖的Gemini 1.5 Pro，也官宣正式开放。

谷歌Gemini 1.5 Pro可以为不同模态执行高度复杂的理解和推理任务，同时可以在更长的代码块中执行更相关的问题解决任务。Gemini 1.5 Pro可处理100万token，比Claude 3中最大的200K上下文，直接高出了五倍！而GPT-4 Turbo，上下文也只有128K。

在超长上下文理解能力下，Gemini 1.5 Pro能够理解、比较并对比两部电影的完整剧本，帮助用户决策哪部更值得一看；能够在推理时遵循完整的语言手册，将英语翻译成德国的一种不到2000人使用的语言；在一篇长论文中找到、理解并解释一个小图表：Gemini 1.5 Pro能够从DeepMind的Gemini 1.5 Pro论文中提取出“表8”，并解释该表的含义。

值得一提的是，Gemini 1.5 Pro还可以完成对视频是否由AI生成的鉴别，如观看、理解和区分OpenAI Sora视频中的内容是否由AI生成，Gemini 1.5 Pro突出显示了Sora的猫视频，并强调了为什么它可能是由AI生成的关键因素。

今年2月发布时，Gemini 1.5 Pro目前尚未对公众开放，仅有少数用户加入内测。如今，传说中的谷歌最强杀器Gemini 1.5 Pro，已经在Vertex AI上开放公测了，人人可免费试用。

此次官宣公测，Gemini 1.5 Pro还添加了音频处理能力，能处理音频流，包括语音和视频中的音频。这直接无缝打破了文本、图像、音频和视频的边界，一键开启多模态文件之间的分析。在此前的财报电话会议中谷歌介绍，Gemini 1.5 Pro仅凭一个模型就能对多种媒介进行转录、搜索、分析、提问。

自与OpenAI多模态视频大模型Sora同一天发布后，掌声和热度完全被Sora抢去的Gemini 1.5 Pro，这次公测开放后能否打响翻身仗？虽然在超长上下文在无缝处理输入信息方面，仍然有一定的局限性，但Gemini 1.5 Pro的全面开放，让对大量数据进行本机多模态推理成为可能。从此，多海量的数据，都可以进行全面、多角度的分析。Gemini 1.5 Pro的模型能力已经在个人用户及企业用户如思爱普、TBS、Replit的多维任务数据处理中取得优秀实践成果。

升级“视频版”Imagen 2.0

自被Sora抢去风头后，谷歌也正式卷入视频大模型的激战。这一次，谷歌放出带有图像动画的升级“视频版”Imagen 2.0。该模型可生成4秒24帧640p的视频。仅凭文字提示词，Imagen 2.0 就能创作出实时的动态图像，帧率为每秒24帧，分辨率达360x640像素，时间长度为4秒。

谷歌在Next大会上表示，Imagen 2.0在处理自然景观、食物图像和动物等主题时，表现尤为出色，在一系列多样的摄影角度和动作的生成式，能确保整个序列的视觉一致性，并配备了安全过滤和数字水印技术。

与此同时，谷歌对Imagen 2.0也升级了图像编辑功能，增加了图像修复、扩展、数字水印功能。例如，把图中的男人去掉，一键圈出即可，并且Imagen 2.0还能对人物去掉后的景色图像进行自动补全。此外，Imagen 2.0还能实现诸如图像视野扩大、对选定图像的一键调整等便捷操作。

Imagen 2.0新增的数字水印功能，由Google DeepMind的SynthID驱动。在此功能下，用户可为图片和视频生成隐形水印，并验证它们是否由该模型生成。

代码模型CodeGemma发布

Gemini 1.5 Pro从发布到公测的两个月内，谷歌将多种前沿模型引入Vertex AI，包括自家的Gemini 1.0 Pro、轻量级开源模型Gemma，以及Anthropic的Claude 3。其中，代码模型CodeGemma发布引人注目。

最新发布的轻量级代码生成模型CodeGemma，采用的是与Gemma系列相同的架构，并进一步在超过5000亿个代码Token上进行了训练。

CodeGemma 7B的预训练版本（PT）和指令微调版本（IT）在理解自然语言方面表现出色，具有出众的数学推理能力，并且在代码生成能力上与其他开源模型不相上下。CodeGemma 2B则是一个SOTA的代码补全模型，可以进行快速的代码填充和开放式生成。

论文地址： https://storage.googleapis.com/deepmind-media/gemma/codegemma_report.pdf

值得一提的是，在CodeGemma论文列出的核心团队名单中，华人成员占近6成。

此外，谷歌在其AI超算平台上，也进行了一系列升级，包括升级的Nvidia芯片、新软件、灵活的消费模式。其中，谷歌云的张量处理单元TPU v5p上线，谷歌与英伟达合作加速AI开发。

如今，该定制芯片全面向云客户开放。这些都进一步提升了谷歌云在AI领域的竞争力。

首款Arm架构CPU芯片

在硬件方面，谷歌也丢出了一枚王炸。

在Next大会上，谷歌正式宣布，将自研首款基于Arm架构的CPU芯片Axion，该芯片为数据中心专用的AI芯片，专为处理从YouTube广告到大数据分析等多元任务设计。

这款芯片延续了谷歌超过十年的芯片创新历程，自 2022 年底 ChatGPT 引发 AI 竞赛以来，谷歌更加倚重自研芯片策略，试图减少对外部供应商的依赖。

据谷歌在会上介绍，这款CPU处理器Axion，将提供更好的性能和能源的效率，相较英特尔和AMD的最新x86芯片，性能提高50%，能源效率提高60%；且比起目前基于Arm的最快通用芯片，Axion的性能还要高出30%。

Axion AI芯片意味着，谷歌开启了与英特尔英伟达等传统合作伙伴的竞争态势，并向微软和亚马逊下战书。尽管如此，谷歌副总裁 Amin Vahdat 仍表示，此举旨在做大市场蛋糕而非竞争。

谷歌猛烈AI攻势来了！Gemini 1.5 Pro开放、首款Arm架构CPU、卷入视频模型大战

正文

请到「今天看啥」查看全文