专栏名称: 哎咆科技
原「果粉查询」公众号蜕变为专注科技生活媒体,提供最前沿科技动态及爆料,产品试用测评&众筹,苹果序列号查询,山寨机&翻新机验证等服务。
目录
相关文章推荐
EETOP  ·  2025.01 JSSC 论文分享 ·  昨天  
EETOP  ·  华为全年收入暴增! ·  昨天  
EETOP  ·  ASML ... ·  2 天前  
EETOP  ·  台专家:特朗普搬起石头砸自己脚! ·  3 天前  
51好读  ›  专栏  ›  哎咆科技

真正的系统级AI,或许要到Android 16才能看到

哎咆科技  · 公众号  · 硬件  · 2024-12-01 19:30

主要观点总结

文章介绍了谷歌正在为Android 16开发的新功能,该功能旨在通过Gemini代表用户操作其他应用,旨在将Gemini打造成智能手机上的AI智能体。文章还提到国内手机厂商在AI方面的应用,并对比了谷歌的新功能与荣耀的YOYO智能体、OPPO的超级小布助手在技术路径上的不同。谷歌的新功能将通过打通系统层和应用层的方式,使用app functions API来实现,这可能会为用户提供更为科幻的使用体验。

关键观点总结

关键观点1: 谷歌为Android 16开发新功能,通过Gemini代表用户操作其他应用。

谷歌正在开发一个新的功能,该功能旨在通过Gemini代表用户操作其他应用,将Gemini打造成智能手机上的AI智能体。

关键观点2: 国内手机厂商在AI方面的应用。

国内手机厂商如荣耀和OPPO已经展示了他们的AI智能体功能,可以自主打开App、解析屏幕内容并执行一系列点击操作。

关键观点3: 谷歌新功能与国内手机厂商AI智能体的技术路径不同。

谷歌的新功能将通过打通系统层和应用层的方式来实现,使用app functions API,与荣耀的YOYO智能体和OPPO的超级小布助手的AI视觉路线有所不同。

关键观点4: 谷歌新功能的可能优势。

谷歌的新功能可能会为用户提供更为科幻的使用体验,因为它打通了系统层和应用层,能让AI助手具备通过系统底层调动App的能力。


正文

刚刚过去的十月,一众国内手机厂商都带来了新款旗舰机型,在强劲的性能、出色的影像能力之外,AI无疑成为了挂在各大厂商嘴边的一个词,系统级AI更是一夜之间就成为了各家OS的标配。作为Android生态的盟主,谷歌自然不会对此熟视无睹。



日前有消息显示,谷歌正在为Android 16开发一个全新的功能,可以让Gemini代表用户来操作其他应用。据悉,谷歌方面希望将Gemini打造成智能手机上的AI智能体,从而让当初Pixel 4上的Google Assistant从Demo变为现实。其实早在2019年发布Pixel 4时,谷歌就曾展示了通过Google Assistant来操控Chrome浏览器。

只不过彼时Google Assistant控制Chrome是基于语音指令来实现,其实与苹果Siri的快捷指令没有本质区别。到了AI时代、特别是2024年,一众国内厂商纷纷展示了比Google Assistant操控Chrome浏览器或Siri快捷指令更有未来感的技术。


比如在发布Magic7系列之前,荣耀CEO赵明与360创始人周鸿祎进行了一次关于AI的对谈直播,期间赵明展示了用Magic 7来实现一句话点咖啡。当时他对着手机说了句,“给我点三杯瑞幸冰美式,大杯”,Magic 7的YOYO智能体就按照要求进行了操作,打开美团、并点选直播间的地址,选择瑞幸订了三杯大杯的冰美式。

事实上,MagicOS 9.0搭载的YOYO智能体就如同一位人类助理,可以自主打开App、解析屏幕内容,并执行一系列的点击操作,只有在最后的“确认支付”环节才需要用户介入,来完成整个流程。无独有偶,在OPPO的ColorOS 15中,同样也提供了超级小布助手可以代替用户进行一系列的操作。


既然如此,谷歌此举是不是在重复造轮子呢?答案其实是否定的,因为虽然谷歌的Gemini与荣耀的YOYO智能体、OPPO的超级小布助手所实现的效果相似,但技术路径却大相径庭。荣耀和OPPO等手机厂商实现这一功能的路线是AI视觉,荣耀方面在宣传MagicOS 9.0时就曾打出“纯AI视觉、三方零适配”这样的宣传语。

当初Google Assistant控制Chrome和Siri的快捷指令,其实都是基于谷歌和苹果面向残障人士设计的AccessibilityService(无障碍功能)的衍生能力。事实上,Android和iOS均要求开发者为App的功能按钮加入无障碍标签,系统可以通过读取这一标签实现对屏幕内容的认知,进而执行模拟用户点击某个选项以及滑屏等等操作。


OPPO、荣耀目前则是在此基础上更进一步,直接通过AI视觉来实现“屏幕识别”,但让AI与用户共享视野实际上并没有完全打通系统层和应用层,这也是为什么荣耀方面敢于宣称“三方零适配”的原因。基于AI视觉的智能体本质上扮演的是有手有眼的人,是通过模拟人的行为来实现对手机里App的操控。

但谷歌走的是打通系统层和应用层的路线,在Android 16上他们开发了一个名为app functions(应用功能)的API,开发者可以使用这个API定义App的服务、进而创建相关功能,并将其分享给Android的App Search框架。简而言之,app functions就相当于允许开发者向系统“贡献”App的某项能力,从而让AI助手具备通过系统底层调动App的能力。







请到「今天看啥」查看全文