专栏名称: APPSO

让智能手机更好用的秘密。

国产 AI 能帮你操控手机了，全自动发微信、逛淘宝，贾维斯真要来了

APPSO · 公众号 · app · 2024-10-31 18:11

正文

你是个成熟的 AI 了，该学会自己干活了。

这已经不是一句破梗，最近，越来越多的 AI 产品，可以让我们的手机和电脑自己跑起来。

Anthropic 的「computer use」，像人一样操纵电脑，工程师让它帮忙点外卖，它思考了一分钟，选择了披萨。

荣耀的 YOYO 智能体，听到 CEO 说困了，直接在发布会现场点了一杯咖啡饮品。

智谱的 AutoGLM 应用，更是将我们常用的 app 一网打尽，打车、点外卖、发微信，它都能代劳。

等等，这不是去年就火了的 agent（智能体）吗？人类一句话，AI 自己干活。想法惊艳，但模型能力没跟上，慢慢就没了水花。

挖了一年的坑，今年有望填上了，以后真的可以说：听我解释，是手机自己干的！

让 AI 代发微信、加购物车，都能用嘴说

智谱正在内测的应用 AutoGLM，是使用门槛较低的一款 agent，已经可以让我们动嘴玩手机了。

你尽管说话，AI 语音转文字，然后按部就班完成任务，当然，如果不方便说话，也可以打字发送命令。

先发条微信消息给好友吧，我们几秒搞定的事情，AI 花了 20 多秒。

发送微信消息

但第一次亲眼看到 AI 玩手机，实在新鲜。因为「涉及敏感操作」，AI 还知道请示一下我的意见。

AutoGLM 也能发起语音通话，就是路径有点绕。等着页面一次次跳转，考验急性子本人。

发起语音通话

帮忙打车、购物，AutoGLM 也没问题，它还会给出追问，主动对齐需求。举个例子，当我要求打车到广州南站，AutoGLM 会问我是哪个站口。

至于下单，还是我们自己来。你或许担心，我们的银行卡会不会任 AI 宰割，但 AutoGLM 不会帮你「立即打车」。

类似的，在淘宝下单一条优衣库黑色 m 号工装裤，AutoGLM 会停留在确认订单的页面，不会代我们支付。

在淘宝下单

一些 app 的图标、菜单、按钮，AutoGLM 用得比我都熟练。当我要求在大众点评找到海珠区三家评价最好的披萨店，AutoGLM 听懂了，先搜索「披萨店」，然后选择地点，按好评优先排序，最后给出了一个小结。

懂交互的 AutoGLM，也能做一些文字工作，我让它找到公众号「爱范儿」最近的一篇文章，点赞并总结内容，或者在小红书找广西旅游攻略，收藏三篇并总结内容，虽然速度有些慢，但每个需求都没有敷衍。

为公众号文章点赞和评论

这对大模型来说不算什么，重点在于，我们可以看到手机自主完成整个过程，AI 让你切身体会「你别做，我来做」的霸总发言。

AutoGLM 的能力范围

目前，AutoGLM 能做的并不算多，但确实有了 agent 的模样，规划任务，代人类执行操作，解决日常生活中的问题。

以前我们要教长辈玩手机，一步步截图并加备注、用录屏记录操作过程，甚至手绘使用说明书，但 AI 可以直接帮我们玩手机，一步到位，怎么不算一种很新的无障碍体验？

人和手机的交互，AI 要学的还有很多

当然，作为一个内测产品，AutoGLM 肯定是不成熟的。

不少放上来的例子，我其实试了很多次才成功，失败的原因主要是任务中断，其中有不少失败得很搞笑的素材。

我请 AutoGLM 评论微信好友的最新朋友圈，虽然完成了任务，它却保留了自证 AI 身份的开头，措辞也满满的机器味。有些智能，但不那么多。

所以，先别指望让 AI 帮我们一键维护人脉了，友谊的小船很难不翻。

语音识别虽然方便，但可能因为个人的普通话水平所限，不够准确，比如，AutoGLM 把「爱范儿」听成了「f2」，需要手动修改。

稍微复杂的、涉及多步思考的任务，AutoGLM 可能完不成。

我让 AutoGLM 点鸡蛋瘦肉肠粉和豆浆的外卖，AI 试图添加冰冻豆浆的时候，触发了验证码提示，可能是平台监测到了机器人行为，然后任务就结束了。

更啼笑皆非的事情发生了，它说鸡蛋瘦肉肠粉售罄了，我看了下，这家有肉蛋肠粉，差不多的商品，换个说法就不能理解了，AI 还不够变通。

在美团触发验证码

努力努力白努力的情况也有，要求 AutoGLM 在携程找到周四广州飞北京最低价机票，眼睁睁看着它胡乱操作一通，最后搜索到一些北京美食，大言不惭地说自己完成了。

最让人共情 AI 的是，AutoGLM 跳不过广告弹窗，需要我们手动操作，但哪怕我们帮了 AI，任务也很容易中断。AI就像每个被软件开屏霸凌的用户一样，被困在广告里。

毕竟，AutoGLM 还在萌芽，问题虽多，却让我们直观地看到了一种新的交互形态。

我们早已习惯了用手指点击图标、按钮、菜单，自己完成操作，但现在，我们可以通过自然语言、语音指令等方式，直接表达意图，AI 自动执行操作。

从门槛较高的命令行界面，到更直观的用户图形界面，再到更符合人类沟通习惯的自然语言界面，人机交互的进化方向，是变得更自然。不久的未来，除了对话，说不定还可以让 AI 直接看我眼色行事。

手机的自动驾驶，只有 AI 是不够的

让 AutoGLM 在手机跑起来，要在手机设置里授权「无障碍」「悬浮球」等权限，它才能获取当前页面信息，与本地应用进行交互。

这也说明，实现 agent，只有大模型是不够的，AI 需要适配不同设备和应用、获取上下文的信息，才能执行具体的操作。

兜兜转转，大模型应用的战场，回归了传统的平台和硬件。渠道在哪里，用户信息在哪里，用户惯性在哪里，他们也往哪里去，智谱和荣耀合作加强端侧 AI 就是一个例子。

除了大模型公司，手机厂商也可能需要和应用厂商搞好关系。荣耀 CEO 赵明说过，agent 可以分为两种，有些不需要第三方，比如点咖啡、打微信电话，但有些就需要介入，比如充值手机话费，调用运营商的大模型进行接管。

除了生态，agent 在今年能遍地开花，当然离不开技术的进步。

去年有个很火的 agent 项目 AutoGPT，可以操纵电脑、上网查资料、使用第三方工具，但英伟达 AI 科学家 Jim Fan 并不看好，认为 AutoGPT 只能解决一些简单的、明确的任务，这本质是因为 GPT-4 有局限性，就像没有任何提示词可以把 GPT-3 变成 GPT-4。

今年就不一样了，多模态大语言模型成熟了，同时，各家厂商还在研究相关的架构，让大模型学习大量的 UI 数据，更好地理解手机和电脑屏幕。

苹果在 4 月发布了多模态大语言模型 Ferret-UI 的论文，为的就是移动端。训练 Ferret-UI 时，苹果收集了大量基础 UI 任务的训练样本，为了增强模型的推理能力，还编制了一个用于高级任务的数据集。

为什么要学习这些数据？苹果给出了几个原因：手机屏幕长宽比与大多数图像不同，图标、按钮等图像的尺寸都非常小，以及，模型需要与 app 交互，不能像解释静态图像那样，一次性理解信息。

这么一说，当前的苹果 AI 应该只是前菜，siri 可能真的会迎来「史诗级更新」，而不是能力不够 GPT 来凑。

最近，Google 也传出开发 agent 的消息，项目干脆就叫贾维斯，由 Gemini 驱动，可以截取屏幕截图后解析内容，将网页任务自动化，执行收集研究、购买产品、预定航班等任务。

微软应该和 Google 很有共鸣，旗下 AI PC 的 Recall，也是每隔几秒钟截取一次屏幕截图，最近还低调开源了 OmniParser，一个基于大模型的屏幕解析工具。

OmniParser，将用户界面屏幕截图解析为结构化元素

不过，agent 目前的水平，只是让人对技术有了实感，不能捧杀，完全自动操作不可靠，仍然需要人类下判断。

而且，一些简单的操作，AI 仍然完成得很吃力，Anthropic 就实话实说，操作计算机时，滚动、拖动、缩放，人类像呼吸一样自然的事情，对 Claude 来说依然是个不小的挑战。

我也在使用 AutoGLM 时发现，跨应用的任务完成得磕磕绊绊，让它在小红书找到一条帖子，分享链接给微信好友，前面很顺利，但卡在最后一步「返回小红书还是留在微信」不动弹了，没有像往常一样，给出「完成任务」的提示。

小红书跳转微信

任务其实已经完成，这一步本就不在它的指令范畴之内，卡住了也无可厚非，继续学吧，学无止境。

比起「智能体」这种略显抽象的翻译，以「主驾驶」理解 agent，和「copilot」（副驾驶）相对，或许会让我们更心生期待。

汽车驾驶自动化通常分为六个级别，0-2 级为驾驶辅助，3-5 级为自动驾驶，其实，agent 就像手机的「自动驾驶」。

10 月，信通院联合荣耀，为 AI 手机的智能化，提出了一个类似驾驶自动化的分级标准，分为 L1 到 L5。

目前，agent 的水平更接近 L3，AI 助理，理解并完成用户的很多指令。

荣耀 CEO 赵明之前在发布会演示了一个场景，他对着 YOYO 智能体说：「我有些困了，帮我点杯喝的」，提问有些模糊，但智能体可以根据过往的记录和话中的信息，判断他需要喝咖啡，加购物车，等待结算确认。

但更多、更复杂的指令还待开发，更多人类干预的地方等待消除，达到 L4 的水平，AI 还得理解我们的潜台词，具备一定的反思和自我纠正的能力。

L5 应该长什么样子？可以联想到的就是漫威宇宙的贾维斯了，不只是 AI，也是家人，控制盔甲和各种设备，经常秀出幽默感吐槽托尼，又能在钢铁侠生死攸关的时刻镇定地告诉他「先生，请深呼吸」。

毕竟，人类对自己的造物总有一种情结，更懂我，更像我，甚至超越我，又忠诚于我，就像在钢铁侠问「你在吗」的时候，贾维斯回答得那样：「为你，先生，永远都在」。