专栏名称: AI科技大本营
为AI领域从业者提供人工智能领域热点报道和海量重磅访谈;面向技术人员,提供AI技术领域前沿研究进展和技术成长路线;面向垂直企业,实现行业应用与技术创新的对接。全方位触及人工智能时代,连接AI技术的创造者和使用者。
目录
相关文章推荐
佛山电视台  ·  明天出分!复试攻略都在这儿了→ ·  昨天  
广东公共DV现场  ·  女子报警:我举报我自己!网友直呼太可怕,“吓 ... ·  2 天前  
佛山电视台  ·  注意!本周末,佛山多路段有交通管制→ ·  3 天前  
广东公共DV现场  ·  员工连续工作29小时被通报表扬?多方回应 ·  4 天前  
广东台今日关注  ·  局长酒后驾车砸店伤人,官方通报→ ·  4 天前  
51好读  ›  专栏  ›  AI科技大本营

谷歌猛烈AI攻势来了!Gemini 1.5 Pro开放、首款Arm架构CPU、卷入视频模型大战

AI科技大本营  · 公众号  ·  · 2024-04-11 15:29

正文

作者 | 王轶群
责编 | 唐小引
出品丨AI 科技大本营(ID:rgznai100)

继Gemma、Gemini、Gemini 1.5相继发布之后,谷歌在人工智能的布局上又下一城。

在Cloud Next大会上,谷歌放出不少AI“炸弹”,包括Gemini 1.5 Pro正式开放、加入AI视频模型大战、发布代码模型CodeGemma,即将推出AI芯片等一系列密集动作。


Gemini 1.5 Pro 全面公测

刚发布就被Sora的光环所掩盖的Gemini 1.5 Pro,也官宣正式开放。

谷歌Gemini 1.5 Pro可以为不同模态执行高度复杂的理解和推理任务,同时可以在更长的代码块中执行更相关的问题解决任务。Gemini 1.5 Pro可处理100万token,比Claude 3中最大的200K上下文,直接高出了五倍!而GPT-4 Turbo,上下文也只有128K。

在超长上下文理解能力下,Gemini 1.5 Pro能够理解、比较并对比两部电影的完整剧本,帮助用户决策哪部更值得一看;能够在推理时遵循完整的语言手册,将英语翻译成德国的一种不到2000人使用的语言;在一篇长论文中找到、理解并解释一个小图表:Gemini 1.5 Pro能够从DeepMind的Gemini 1.5 Pro论文中提取出“表8”,并解释该表的含义。

值得一提的是,Gemini 1.5 Pro还可以完成对视频是否由AI生成的鉴别,如观看、理解和区分OpenAI Sora视频中的内容是否由AI生成,Gemini 1.5 Pro突出显示了Sora的猫视频,并强调了为什么它可能是由AI生成的关键因素。

今年2月发布时,Gemini 1.5 Pro目前尚未对公众开放,仅有少数用户加入内测。如今,传说中的谷歌最强杀器Gemini 1.5 Pro,已经在Vertex AI上开放公测了,人人可免费试用。

此次官宣公测,Gemini 1.5 Pro还添加了音频处理能力,能处理音频流,包括语音和视频中的音频。这直接无缝打破了文本、图像、音频和视频的边界,一键开启多模态文件之间的分析。在此前的财报电话会议中谷歌介绍,Gemini 1.5 Pro仅凭一个模型就能对多种媒介进行转录、搜索、分析、提问。

自与OpenAI多模态视频大模型Sora同一天发布后,掌声和热度完全被Sora抢去的Gemini 1.5 Pro,这次公测开放后能否打响翻身仗?虽然在超长上下文在无缝处理输入信息方面,仍然有一定的局限性,但Gemini 1.5 Pro的全面开放,让对大量数据进行本机多模态推理成为可能。从此,多海量的数据,都可以进行全面、多角度的分析。Gemini 1.5 Pro的模型能力已经在个人用户及企业用户如思爱普、TBS、Replit的多维任务数据处理中取得优秀实践成果。

升级“视频版”Imagen 2.0

自被Sora抢去风头后,谷歌也正式卷入视频大模型的激战。这一次,谷歌放出带有图像动画的升级“视频版”Imagen 2.0。该模型可生成4秒24帧640p的视频。仅凭文字提示词,Imagen 2.0 就能创作出实时的动态图像,帧率为每秒24帧,分辨率达360x640像素,时间长度为4秒。

谷歌在Next大会上表示,Imagen 2.0在处理自然景观、食物图像和动物等主题时,表现尤为出色,在一系列多样的摄影角度和动作的生成式,能确保整个序列的视觉一致性,并配备了安全过滤和数字水印技术。

与此同时,谷歌对Imagen 2.0也升级了图像编辑功能,增加了图像修复、扩展、数字水印功能。例如,把图中的男人去掉,一键圈出即可,并且Imagen 2.0还能对人物去掉后的景色图像进行自动补全。此外,Imagen 2.0还能实现诸如图像视野扩大、对选定图像的一键调整等便捷操作。

Imagen 2.0新增的数字水印功能,由Google DeepMind的SynthID驱动。在此功能下,用户可为图片和视频生成隐形水印,并验证它们是否由该模型生成。


代码模型CodeGemma发布

Gemini 1.5 Pro从发布到公测的两个月内,谷歌将多种前沿模型引入Vertex AI,包括自家的Gemini 1.0 Pro、轻量级开源模型Gemma,以及Anthropic的Claude 3。其中,代码模型CodeGemma发布引人注目。

最新发布的轻量级代码生成模型CodeGemma,采用的是与Gemma系列相同的架构,并进一步在超过5000亿个代码Token上进行了训练。

CodeGemma 7B的预训练版本(PT)和指令微调版本(IT)在理解自然语言方面表现出色,具有出众的数学推理能力,并且在代码生成能力上与其他开源模型不相上下。CodeGemma 2B则是一个SOTA的代码补全模型,可以进行快速的代码填充和开放式生成。

论文地址: https://storage.googleapis.com/deepmind-media/gemma/codegemma_report.pdf

值得一提的是,在CodeGemma论文列出的核心团队名单中,华人成员占近6成。

此外,谷歌在其AI超算平台上,也进行了一系列升级,包括升级的Nvidia芯片、新软件、灵活的消费模式。其中,谷歌云的张量处理单元TPU v5p上线,谷歌与英伟达合作加速AI开发。

如今,该定制芯片全面向云客户开放。这些都进一步提升了谷歌云在AI领域的竞争力。


首款Arm架构CPU芯片

在硬件方面,谷歌也丢出了一枚王炸。

在Next大会上,谷歌正式宣布,将自研首款基于Arm架构的CPU芯片Axion,该芯片为数据中心专用的AI芯片,专为处理从YouTube广告到大数据分析等多元任务设计。


这款芯片延续了谷歌超过十年的芯片创新历程,自 2022 年底 ChatGPT 引发 AI 竞赛以来,谷歌更加倚重自研芯片策略,试图减少对外部供应商的依赖。

据谷歌在会上介绍,这款CPU处理器Axion,将提供更好的性能和能源的效率,相较英特尔和AMD的最新x86芯片,性能提高50%,能源效率提高60%;且比起目前基于Arm的最快通用芯片,Axion的性能还要高出30%。

Axion AI芯片意味着,谷歌开启了与英特尔英伟达等传统合作伙伴的竞争态势,并向微软和亚马逊下战书。尽管如此,谷歌副总裁 Amin Vahdat 仍表示,此举旨在做大市场蛋糕而非竞争。







请到「今天看啥」查看全文