专栏名称: 数字生命卡兹克
反复横跳于不同的AI领域,努力分享一些很酷的AI干货
目录
相关文章推荐
FT中文网  ·  英伦传统出版业能否突围经济周期? ·  9 小时前  
商业洞察  ·  裁员上万人,又一汽车巨头扛不住了! ·  昨天  
大港微生活  ·  太突然!关闭近千家门店! ·  2 天前  
大港微生活  ·  太突然!关闭近千家门店! ·  2 天前  
21世纪商业评论  ·  勇敢的行动者:2024年度商业模式创新公司 ·  2 天前  
FT中文网  ·  iPhone神话在中国破灭 ·  3 天前  
51好读  ›  专栏  ›  数字生命卡兹克

比OpenAI良心多了,一文总结Google发布会的11个亮点。

数字生命卡兹克  · 公众号  ·  · 2024-08-14 09:30

正文

就在X上一群人被草莓哥乱发OpenAI预告,疯狂搞心态的时候。

Google带着 MadeByGoogle ‘24 发布会来了。

OpenAI甚至为了狙击Google,在人发布会开始几分钟后,发了一个Blog,就这么个破Blog,还让他们的AI草莓哥当谜语人预告了两天。

现在的OpenAI,真的跟狼来了一样,我对他已经没有任何期待和信任可言了。每次就差那两个脏话骂出来了,XXX,XX!

而Google在没有任何的预期下,还是有一些额外的惊喜的。

我总结了11个亮点,你看完了这篇文章,也算是看完发布会了。

1. Google要根据Gemini重构Android。

他们定义了一个词,叫AI OS,Google想把AI OS带给所有人。

目前它们已经支持200多个国家和地区的45种语言,它可以在数十个设备制造商的数百个手机型号上使用,全球数十亿台设备上得到支持。

2. 手机上Gemini的图像识别翻车了。

他们第一个演示的是Gemini的图像识别能力。

作为多模态AI,图像拍摄识别似乎被卷成必须有的功能了。最能考验照片识别能力的,就是拍摄说明书、日程表这类信息密集的内容——既要识别图像,还得看得懂文本内容给出答案。

演示的小哥拍摄了一张 纸质音乐会海报 ,上面巡演的日程安排。演示者让Gemini查看自己的计划,选择可以去看Sabrina Carpenter演出的时间。

然而,现场演示必定会出现的失误,它来了。

Gemini前两次拍照都很不给面子地现场演示失败,隔着太平洋我都感觉现场尬住了,还是两次。。。= =

这个演示还特意提了一下,用的是三星Galaxy S24 Ultra手机,难道是三星发力了?

现场紧急换了一部设备重新尝试,好在第三次顺利识别出了图片内容。

Gemini直接给出了很具体的日期:Sabrina会在 2024年11月9日 到达旧金山,并且这一天演示者没有其他安排,可以去看演出。

现场的掌声终于响起,哥们儿肉眼可见地松了一口气啊。

3. 跨软件交互很方便。

Gemini现在能够在手机上直接理解并分析视频内容。

你可以一边观看视频,一边呼唤出Gemini为你总结重点,或者回答你关于视频内容的问题。

比如晚上观看油管上美食视频后,都不用你挨个识图,自动生成视频中出现的食物清单,并添加到用户的个人"待尝试"列表中。

吃货福音。

并且可以为油管上的一些旅行视频创建景点清单或行程建议。

作为一个连散步都需要出场bgm的,

你也可以要求gemini制作一个“适合在首尔散步的韩国流行音乐播放列表”,它能根据用户描述的场景、情绪或活动类型推荐合适的音乐。

使寻找音乐变得更加直观和个性化。

4 . 写文速度很快效果也不错。

Gemini还可以辅助在手机端用仅数秒的时间完成邮件写作。

小哥演示了两个场景:第一个是给房东写封不失礼貌的催促信,通知她来维修家里的供电模块。

第二个是给教授写一封生病缺勤的道歉信(看来这种事小哥之前没少干)。

此外Gemini还有方便用户润色文本和发送邮件的交互设计。

看到Gemini没几秒就完成道歉信,小哥都快憋不住笑了。

5.Gemini Live实时对话效果还不错,但只是低延迟的TTS。

Google推出了类似于GPT4o的可以随时打断的实时对话功能,他们称为Gemini Live。

里面有10中音色可以选择。

演示的小姐姐跟Gemini Live聊了半天,音色效果不错,延迟也足够低,但是其实看着就是一个低延迟的TTS,而不是GPT4o那种原生的多模态大模型。

因为没有任何情绪理解和表达的演示,按照Google的尿性,真要是有他们一定会疯狂展示的,另外在一些长一点的回答上,还是能明显的感觉到延时。

所以其实就是个低延时的TTS对话。

目前得Gemini Advanced订阅用户才能用,一个月20美刀,立刻上线。

6.Pixel 9 是首款搭载多模态 Gemini Nano 的手机。

这是迄今为止在手机上发布的功能最强大的设备端 AI 模型,比之前在 Pixel 8 Pro 上用的 AI 强大了三倍。

Pixel 9 的处理器(TPU 和 Tensor G4)可以在一秒内生成多达 45 个单词,比之前的速度快了两倍。

普通版的 Pixel 9 有 12GB 的内存,而 Pro 版本的内存更大,达到了 16GB。而且他们最骚的是,终于也上了卫星通话的功能。。。

这里只能说一句,遥遥领先!

这次发布的产品包括三款直板手机和一款折叠手机。常规系列包括一款配备 6.3 英寸显示屏的基础版 Pixel 9,一款配备 6.8 英寸屏幕的 Pixel 9 Pro XL,以及一款新的更小巧的 6.3 英寸 Pixel 9 Pro。

说实话,我觉得,有点丑。。。

还有个新款的折叠屏 Pixel 9 Pro Fold。

更丑了。。。

7.Call Notes在电话过程中可以帮你记录下关键信息。
现在,Pixel的“通话助手”变得更强大了,增加了“Call Notes”功能。
在你打完电话后,它会为你提供一个完全私密的通话总结。这样即使你在通话时没有纸笔,也能轻松获取电话号码、时间、细节和其他你不想忘记的信息。

而且这个过程全部是本地跑的,基本没有隐私问题。

小哥举了个例子,他最近考虑换个发型,但他的理发师做不了他想要的发型,所以他推荐我去另一家理发店。

但是问题是,他忘了记下那家店的电话号码。有了Call Notes后,就可以轻松回溯。

7.类似于 Recall的屏幕截图功能有点屌

有个大家都熟悉的场景:你在手机上看到一些想记住的东西,也许你会在脑海中记下来,或者截图保存。

但通常,你要么忘记了要记的东西,要么在需要的时候找不到。

然后他们就做了一个新的产品。

可以用AI快速搜索所保存的所有图片。比如你手机里有几十张自行车的图,你搜一下自行车,就都出来了。

你还能问一下更复杂的,比如T恤价格,你可以看到Pixel截图不仅找到了原始图像,而且还根据图像中的信息用自然语言为我提供了答案。

8.一个普普通通的本地AI画图Pixel Studio

每部Pixel 9手机都配备了新的Pixel Studio,他们手机上的首款图像生成器。

效果我觉得,就是普普通通,属于能用。

比如日落时的海滩篝火坑,就感觉效果,非常的普通。

9.AI相机拍合照非常的棒
Pixel相机,说是第一个AI相机。
大多数参数我不懂,但是这个合照的场景非常的有趣。

很多时候大家没发拍合照,总有一个朋友要当摄影师。

它会用一个简单的屏幕界面来引导你拍照,比如让你把相机交给别人,这样你们可以交换位置。然后,你可以根据第一张照片中人物的轮廓,把他们在新照片中对齐,再拍一张。最终生成的图片会把两张照片合成在一起,看起来就像大家同时出现在同一张照片里一样。







请到「今天看啥」查看全文