专栏名称: 果壳硬科技
果壳旗下硬科技服务品牌,致力于连接科学家与投资人、创业者,在新一轮技术革命和资本流动中,做最懂硬核科技的团队。
51好读  ›  专栏  ›  果壳硬科技

OpenAI:俩二;Google:四个王

果壳硬科技  · 公众号  ·  · 2024-05-15 15:30

正文

又一次,OpenAI 身着华服表演了一个惊艳全场的魔术;但一转眼,Google 把秘籍指南和道具打了个包,来了个全员大派送。


果壳来到了 Google I/O 大会丨谷歌


是的,和 24 小时前那种仍然极具科幻感的炫示相比,今天在 Google I/O 开发者大会上的内容更能令每个普通人信服我们早已身处这个 AI 时代之中——当然,按照 Google CEO 桑达尔·劈柴的说法,“一个 Gemini 的时代”。


所谓“Gemini 时代”始于一年前,2023 年的 I/O 大会上,劈柴公布了这个模型。在之后的一年中,Gemini 不温不火,也没少遭遇一些啼笑皆非的争议(有些的确很尴尬)。


一年过去了,“搜索”变了,“谷歌助理”变了,连万年不变的“办公全家桶”都变了


  “蒸馏”一个大模型  


Google 说知道用户总“吵吵”别人家模型延迟小,成本低。于是这次,推出 Gemini 1.5 Flash 轻量级模型,速度更快,效率更高,从而能覆盖更多的用户。



Google 表示,就其模型尺寸来说,它对大量信息进行多模态处理的表现,还算不错。1.5 Flash 擅长总结,聊天,凝练图像和视频,从长文档和表格中提取信息。


Gemini 1.5 Flash 通过 1.5 Pro“蒸馏”得来,“知识蒸馏”是一种模型压缩技术,让小模型学习大模型,将重要的知识和技能迁移过来。


说到 Gemini 1.5 Pro,随着今天的 I/O 大会已经完全开放,覆盖 150 个国家,35 个语言,用户只要订阅了 Gemini Advanced,就能用上了。



Gemini 1.5 Pro(和1.5 Flash)支持 100 万 tokens 理解,是目前大模型服务中所能支持的最长上下文输入。


如果你不好理解,换算一下,大概是让它帮你总结 1500 页文档,或 100 封邮件。年底,这个数字将直接翻番,增至 200 万


很快,Gemini 1.5 Pro 就能处理一小时时长的视频,或者 30000 行的代码库了。它能充当“数据分析师”,从你上传的表格中“及时”发现洞察,构建自定义的可视化和图表。(你可以从桌面或 Google Drive 上传文件,你上传的文件是私有的,不会被用来训练模型。


全面接入 Gemini 的“谷歌办公全家桶”,也将在未来几个月内陆续上线“智能问答”、“智能邮件回复”、“表格图像化总结”等新功能。


推理上的进步具体表现在,改进了对模型对具体(特定)用例响应的控制,遵循用户复杂和微妙的执行,比如调整一个 Chat Agent 的角色风格,用多个函数调用自动化工作流,让用户通过设置系统指令,掌控模型行为。


Google 说,(Gemini Advanced)用户很快就能创建“Gems”了,这个 Gems 就是自定义化的 Gemini——无论你是想找一个瑜伽教练,为你制定食谱的营养学家,还是微积分导师(或者你有什么其他“奇怪的想法”),搞一个 Gems 就行了。


  无处不在的私人助理,正经的那种  


Demis Hassabis,DeepMind 的 CEO,第一次登上 I/O 大会的舞台,预示了重要信息的登场——崭新的 Google 智能助理。(如果没有 OpenAI 前一天的“截胡”,那就更“崭新”了)


从马上能让用户创建“Gems”的那个例子中,可以见得,为了让大模型“落地”,变得更智能,Google 想要 AI 助理都变得更个人化。


”Gemini 理应是你的私人 AI assistant,对话式的,用户友好的,有帮助的。“在 Google I/O “露脸”好多年的 AI assistant,总终于有了新名号,Project Astra。



Google 会给助理赋予哪些能力?


语音交互


AI 的语调和说话风格可调整;双方可自然对话,你也可以毫不客气地打断 AI 讲话。


Gemini Live 功能将上线 Gemini 移动端。很快,你在 Live 对话时,也能打开摄像头,让 AI 实时观察到你的周围。


在此之前,Google 会把 Gemini 放到 Google Message 做测试,推送到部分国家,让 Gemini 好好学学各种“社交技巧和礼仪。”


规划


“我妈喜欢海,我爸走两步就嫌烦,出行最好做高铁,因为恐高。他们隔天必吃一顿东北菜。入住酒店得干净,离交通近,性价比还得高。“就这样让 AI 生成一份三天海南出行计划,你说它懵不懵?


但现在的 Google 助理,除了具备精明的大脑(Gemini),还有强力的外部支持(这也是 Google 相比其他竞争者的最大优势之一,丰富的应用生态)。Google 将 Extensions(扩展功能)带入 Gemini,用 Gemini 打通并链接更多 Google 应用。


这一来,用户在 Google 应用和服务中的信息都能被调用,很多时候“只用一句简单的 prompt”,这些信息就能被链接起来。


这种共同协作让智能助理的规划能力成为可能。


记忆


在展示案例中,当使用者通过摄像头环顾办公室一周并持续提问交互之后,忽然提问“对了,我刚刚把眼镜放哪里?”助理准确地回答“放在一个苹果旁边。”而这个画面是大约一分钟前从摄像头中一闪而过的——我老板的助理可没有这么厉害。


  搜图算什么,我能搜视频  


Google 搜索的最大进化,被称为 AI Overviews,这个功能将“简化”用户提问,拥有更强大的多步推理能力——先将一个复杂问题,拆解成多个简单问题,再将简单问题拆解成多个关键词——反馈给用户的页面中,将是高度格式化的解释、简洁实用的行动指引、直接引导后续行为的链接等。



未来的搜索产品逻辑可能会被彻底颠覆,人们不需要一个单独的“搜索引擎”。未来 search 功能,也许会成为 Agent 功能的子集,比如让 Agent 做旅行计划,就会涉及到去 Google Maps 上搜饭店和评价。再进一步,想一下上述和 Agent 可能产生的各种互动,本质是都会是一种基于 AI 增强的搜索。



大会上还展示了应用内的搜索增强,名为 Ask Photo,比如在 Google Photo 中搜索“自己女儿学游泳的完整经历”,反馈的一些照片排列,能让每一个老父亲热泪盈眶,



远胜过搜图的另一种体验,Google 将支持通过视频提问的搜索,联想到修理师傅问你“到底是水管哪里漏了?”而你支支吾吾说不出,或是各种运动时的动作纠正,有些时候会比语言描述得更清。


  模型越大,责任越大  


每次聊到“AI 责任”,Google 可就精神了。


一款名叫 SynthID 的工具能很好地应对如今 AI 生成泛滥的问题。过去一年中,SynthID 可以识别 AI 生成的图片和声音,从今开始,还可以针对 AI 生成的文字和视频进行鉴别。基于这款工具和相应技术,Google 已经开始推进和高校与研究院所的合作,以应对 AI 生成内容在严肃科研领域被滥用的现象。


如果你还是在校学习中,这下慌不慌?


过去这一年,OpenAI 被各种“炸裂”或“赢麻了”,但Google 却在这次大会上说自己才“刚开始”,而我们,看热闹怎么会嫌事大?


作者:沈知涵

编辑:malt

如无特别标注,全文图片均来自谷歌


果壳AI组 出品


本文来自果壳,未经授权不得转载.

如有需要请联系 [email protected]