专栏名称: 科创板日报

《科创板日报》是新型主流媒体平台，专注新兴产业与资本，是科创板、新兴产业及资本的重要舆论前沿，深度覆盖新一代信息技术、半导体、生物医药、新能源、新材料、基金等，提供媒体、数据、资源、投行等产品体系。

谷歌I/O开发者大会公布五大重磅更新

科创板日报 · 公众号 · · 2024-05-15 21:20

正文

Gemini 1.5 Pro将迎来升级，在今年晚些时候将会把100万Tokens的窗口进一步扩大至200万。

作者 | 赵昊

北京时间周三（5月15日）凌晨，谷歌举办了年度I/O开发者大会，召开了长达两个小时的主题演讲。正如外界预期的那样，人工智能成为了这次活动的中心。

在演讲中，这家科技巨头发布了众多有关人工智能的产品和服务：

▌Gemini的广泛升级

谷歌推出了新模型“Gemini 1.5 Flash”，以作为Gemini 1.5 Pro更具成本效益的替代方案，同时仍具有强大的功能。Gemini 1.5 Flash从活动当天开始在谷歌的AI工作室和Vertex AI中提供公开预览版。

2月份公布的Gemini 1.5 Pro也将迎来升级，在今年晚些时候将会把100万Tokens的窗口进一步扩大至200万，这将使其能够同时处理2小时的视频、22小时的音频、超过60,000行代码或超过140万个单词。

谷歌CEO皮查伊强调了Gemini在跨语言方面的改进，它将以35种语言向全球所有开发人员提供。皮查伊表示，Gemini 1.5 Pro可以分析PDF和视频以提供摘要，这意味着当用户假期归来后，模型可以将电子邮件和附件一起进行总结。

专为在智能手机上运行而设计的Gemini Nano也从纯文本输入扩展到可以图片输入。谷歌表示，“手机将能通过文字、图片、视频、音频，理解用户的世界。”并且整个过程都是在本地运行，不会引发隐私泄露。

开源大模型Gemma也将有一系列的更新，定于下月推出的Gemma 2参数量将能达到270亿。最后，谷歌的第一个视觉语言模型PaliGemma也被添加到Gemma模型系列中。

▌Veo、Imagen 3、音频概述

针对OpenAI的Sora，谷歌也推出了自己的视频生成模型“Veo”，可以根据文字、图片和视频的提示，生成各种风格的高质量1080P视频。

公司表示，Veo可以更好地理解自然语言，从而生成更能代表用户视觉的视频。它还能理解“延时拍摄”等电影术语，以生成各种风格的视频，并让用户更好地控制最终输出。

去年，谷歌推出了一款名为“SynthID”的工具，可以在AI生成的图像中嵌入人眼不可见的水印。在今天的大会上，公司宣布正在将这项工具扩展到文本和视频之中。上文提到的视频生成模型Veo，在该平台生成的所有视频都会包含SynthID水印。

谷歌还推出了新一代的图像生成模型“Imagen 3”，根据公司的说法该模型可生成迄今为止最高质量的图像，图像中具有更多细节和更少伪影，有助于创建更真实的视觉体验。

与Veo一样，Imagen 3也改进了其自然语言功能，可以更好地理解用户提示及其背后的意图。谷歌称，Imagen 3是渲染文本的最佳选择，目前只有选定的创作者才能使用，很快就会在Vertex AI中推出。

通过Gemini 1.5 Pro，音频概述（Audio Overview）功能可以基于源文件生成个性化和交互式音频对话。

▌AI赋能谷歌搜索

作为主业，谷歌自然会大力将AI融进其主导全球的搜索引擎之中。从本周开始，谷歌搜索引擎将在美国推出“AI概览”（AI Overviews）的功能，搜索引擎会直接归纳总结搜索结果。

同时谷歌搜索也将具备多步骤推理能力，可以一次性处理带有多个限制条件的长问题，并支持“拍视频”搜索解决方案的新搜索形式。

根据现场演示，搜索引擎具备多步骤推理的能力，例如寻找一个瑜伽教室，同时展示新手优惠报价，和距离特定位置的步行时间。这个AI搜索引擎助手，还能介绍食谱、安排行程，以及接受视频形式的提问。

许多人可能都曾经历过花费数小时滚动浏览网页信息流来查找想要搜索的图片，对此，谷歌推出了AI解决方案。借助Gemini，用户可以在Google Photos中通过对话提示来查找他们寻找的图像。

在谷歌提供的案例中，一位用户希望看到他的女儿作为游泳运动员随着时间推移的进步，Google Photos自动筛选给出。谷歌表示，这项名为“Ask Photos”的功能将于今年夏季晚些时候推出。

▌Astra项目

谷歌在大会上宣布了一个名为“Astra”的高级视觉和对话响应智能体项目，即开发能在日常生活中提供帮助的通用AI智能体。媒体分析认为，这个项目旨在开发一种类似《钢铁侠》中人工智能系统“贾维斯”。

根据谷歌的说法，为了做到真正实用，智能体需要能够像人一样理解周围复杂多变的环境并做出反应——它需要能接收并记忆所见所闻，从而了解上下文信息并采取行动。

谷歌表示，它还需要具备主动性、“会学习”并能满足个性化需求，这样用户才能自然地与它交谈，不会有滞后或延迟。

DeepMind首席执行官Demis Hassabis在台上表示，“将响应时间缩短为对话式的内容是一项艰巨的工程挑战。”

▌AI芯片等硬件

谷歌推出了第六代TPU（张量处理单元）“Trillium”，将在2024年底向云客户提供。公司表示，与上一代TPU v5e相比，每个芯片的计算性能提高了4.7倍。