专栏名称: 果壳硬科技

果壳旗下硬科技服务品牌，致力于连接科学家与投资人、创业者，在新一轮技术革命和资本流动中，做最懂硬核科技的团队。

OpenAI：俩二；Google：四个王

果壳硬科技 · 公众号 · · 2024-05-15 15:30

正文

又一次，OpenAI 身着华服表演了一个惊艳全场的魔术；但一转眼，Google 把秘籍指南和道具打了个包，来了个全员大派送。

果壳来到了 Google I/O 大会丨谷歌

是的，和 24 小时前那种仍然极具科幻感的炫示相比，今天在 Google I/O 开发者大会上的内容更能令每个普通人信服，我们早已身处这个 AI 时代之中——当然，按照 Google CEO 桑达尔·劈柴的说法，“一个 Gemini 的时代”。

所谓“Gemini 时代”始于一年前，2023 年的 I/O 大会上，劈柴公布了这个模型。在之后的一年中，Gemini 不温不火，也没少遭遇一些啼笑皆非的争议（有些的确很尴尬）。

一年过去了，“搜索”变了，“谷歌助理”变了，连万年不变的“办公全家桶”都变了。

“蒸馏”一个大模型

Google 说知道用户总“吵吵”别人家模型延迟小，成本低。于是这次，推出 Gemini 1.5 Flash 轻量级模型，速度更快，效率更高，从而能覆盖更多的用户。

Google 表示，就其模型尺寸来说，它对大量信息进行多模态处理的表现，还算不错。1.5 Flash 擅长总结，聊天，凝练图像和视频，从长文档和表格中提取信息。

Gemini 1.5 Flash 通过 1.5 Pro“蒸馏”得来，“知识蒸馏”是一种模型压缩技术，让小模型学习大模型，将重要的知识和技能迁移过来。

说到 Gemini 1.5 Pro，随着今天的 I/O 大会已经完全开放，覆盖 150 个国家，35 个语言，用户只要订阅了 Gemini Advanced，就能用上了。

Gemini 1.5 Pro（和1.5 Flash）支持 100 万 tokens 理解，是目前大模型服务中所能支持的最长上下文输入。

如果你不好理解，换算一下，大概是让它帮你总结 1500 页文档，或 100 封邮件。年底，这个数字将直接翻番，增至 200 万。

很快，Gemini 1.5 Pro 就能处理一小时时长的视频，或者 30000 行的代码库了。它能充当“数据分析师”，从你上传的表格中“及时”发现洞察，构建自定义的可视化和图表。（你可以从桌面或 Google Drive 上传文件，你上传的文件是私有的，不会被用来训练模型。）

全面接入 Gemini 的“谷歌办公全家桶”，也将在未来几个月内陆续上线“智能问答”、“智能邮件回复”、“表格图像化总结”等新功能。

推理上的进步具体表现在，改进了对模型对具体（特定）用例响应的控制，遵循用户复杂和微妙的执行，比如调整一个 Chat Agent 的角色风格，用多个函数调用自动化工作流，让用户通过设置系统指令，掌控模型行为。

Google 说，（Gemini Advanced）用户很快就能创建“Gems”了，这个 Gems 就是自定义化的 Gemini——无论你是想找一个瑜伽教练，为你制定食谱的营养学家，还是微积分导师（或者你有什么其他“奇怪的想法”），搞一个 Gems 就行了。

无处不在的私人助理，正经的那种

Demis Hassabis，DeepMind 的 CEO，第一次登上 I/O 大会的舞台，预示了重要信息的登场——崭新的 Google 智能助理。（如果没有 OpenAI 前一天的“截胡”，那就更“崭新”了）

从马上能让用户创建“Gems”的那个例子中，可以见得，为了让大模型“落地”，变得更智能，Google 想要 AI 助理都变得更个人化。

”Gemini 理应是你的私人 AI assistant，对话式的，用户友好的，有帮助的。“在 Google I/O “露脸”好多年的 AI assistant，总终于有了新名号，Project Astra。

Google 会给助理赋予哪些能力？

语音交互

AI 的语调和说话风格可调整；双方可自然对话，你也可以毫不客气地打断 AI 讲话。

Gemini Live 功能将上线 Gemini 移动端。很快，你在 Live 对话时，也能打开摄像头，让 AI 实时观察到你的周围。

在此之前，Google 会把 Gemini 放到 Google Message 做测试，推送到部分国家，让 Gemini 好好学学各种“社交技巧和礼仪。”

规划

“我妈喜欢海，我爸走两步就嫌烦，出行最好做高铁，因为恐高。他们隔天必吃一顿东北菜。入住酒店得干净，离交通近，性价比还得高。“就这样让 AI 生成一份三天海南出行计划，你说它懵不懵？

但现在的 Google 助理，除了具备精明的大脑（Gemini），还有强力的外部支持（这也是 Google 相比其他竞争者的最大优势之一，丰富的应用生态）。Google 将 Extensions（扩展功能）带入 Gemini，用 Gemini 打通并链接更多 Google 应用。

这一来，用户在 Google 应用和服务中的信息都能被调用，很多时候“只用一句简单的 prompt”，这些信息就能被链接起来。

这种共同协作让智能助理的规划能力成为可能。

记忆

在展示案例中，当使用者通过摄像头环顾办公室一周并持续提问交互之后，忽然提问“对了，我刚刚把眼镜放哪里？”助理准确地回答“放在一个苹果旁边。”而这个画面是大约一分钟前从摄像头中一闪而过的——我老板的助理可没有这么厉害。

搜图算什么，我能搜视频

Google 搜索的最大进化，被称为 AI Overviews，这个功能将“简化”用户提问，拥有更强大的多步推理能力——先将一个复杂问题，拆解成多个简单问题，再将简单问题拆解成多个关键词——反馈给用户的页面中，将是高度格式化的解释、简洁实用的行动指引、直接引导后续行为的链接等。

未来的搜索产品逻辑可能会被彻底颠覆，人们不需要一个单独的“搜索引擎”。未来 search 功能，也许会成为 Agent 功能的子集，比如让 Agent 做旅行计划，就会涉及到去 Google Maps 上搜饭店和评价。再进一步，想一下上述和 Agent 可能产生的各种互动，本质是都会是一种基于 AI 增强的搜索。

大会上还展示了应用内的搜索增强，名为 Ask Photo，比如在 Google Photo 中搜索“自己女儿学游泳的完整经历”，反馈的一些照片排列，能让每一个老父亲热泪盈眶，

远胜过搜图的另一种体验，Google 将支持通过视频提问的搜索，联想到修理师傅问你“到底是水管哪里漏了？”而你支支吾吾说不出，或是各种运动时的动作纠正，有些时候会比语言描述得更清。

模型越大，责任越大

每次聊到“AI 责任”，Google 可就精神了。

一款名叫 SynthID 的工具能很好地应对如今 AI 生成泛滥的问题。过去一年中，SynthID 可以识别 AI 生成的图片和声音，从今开始，还可以针对 AI 生成的文字和视频进行鉴别。基于这款工具和相应技术，Google 已经开始推进和高校与研究院所的合作，以应对 AI 生成内容在严肃科研领域被滥用的现象。

如果你还是在校学习中，这下慌不慌？

过去这一年，OpenAI 被各种“炸裂”或“赢麻了”，但Google 却在这次大会上说自己才“刚开始”，而我们，看热闹怎么会嫌事大？

作者：沈知涵

编辑：malt

如无特别标注，全文图片均来自谷歌

果壳AI组出品

本文来自果壳，未经授权不得转载.

如有需要请联系 [email protected]