专栏名称: 果壳

果壳网（Guokr.com）是开放、多元的泛科技兴趣社区。

看完百度的智能体，我突然知道怎么摸鱼了（屏蔽老板版）

果壳 · 公众号 · 科学 · 2024-11-12 20:26

正文

智能体是什么？

几个月前，我们大概会模糊地认为，它是一种AI大模型赋能应用场景的新形态。今天，对概念做进一步的阐释显然不那么重要了，直接上手做就行。

2024年的百度世界大会上，文心智能体平台（AgentBuilder）展区的工作人员，正极力招呼每一位路过的观众来搭一个智能体（又叫“Agent”），“我们已经极大程度减少做一个智能体所用的代码了”。的确，观众不到1分钟就能“手搓”一个智能体，然后欣慰离开。

热闹的智能体展区丨百度世界大会2024

与市面上已有的对智能体的形容不同，百度创始人李彦宏说，智能体就像移动时代的自媒体账号——首先它的开发门槛足够低，人人都能上手；另外，它可能会变成AI原生时代里，内容、信息和服务的新载体。

一切皆可智能体

智能体可以做什么？

展区内，你可以向“农民院士智能体”请教怎么播种旱地稻；你会接到“销售客服智能体”的电话，在对方耐心全面的解答下，心甘情愿续费车险；或者写一段“大圣穿越到现代”的故事，用“文生图智能体”将它创作成漫画。

利用智能体文生图制作的漫画丨百度世界大会2024

目前，文心智能体平台上已有分布在各个行业的15万家企业和80万名开发者。

根据应用的方向，李彦宏将智能体分成了4类：公司类（相当于传统的官网、公众号、企业号等）、角色类（数字人直播）、工具类（AI写作、一键生成PPT等）、行业类（用于招聘、金融、客服等垂直领域）。

他重点介绍了一款工具类智能体，“自由画布”。

它真的很自由。这款智能体打通了百度文库上的公域资料，以及百度网盘上的私域数据，让找资料、编辑、生成、分享这一流程更加丝滑。

“自由”的另一个体现是，素材不被来源、格式、形式限制。不管是录音的通话、图文结合的行业报告，还是发布会的视频，都可以被“拖拽”到这块画布上，按照用户需求生成一个全新的富媒体内容。

“自由画布”太自由了，以至于很难一句话介绍，可以等着体验一下丨百度世界大会2024

“门槛低，人人可用”是一个前提，“天花板得足够高，多个智能体协作，才能解决更加复杂的问题”又是另一个前提。对此，百度官宣了秒哒，一个零代码应用开发平台（将于明年第一季度上线）。

李彦宏以“为萝卜快跑发布会搭建活动报名系统”为例。

输入需求后，一个负责规划的智能体首先出现，将任务拆解成需求确定、内容生产、工程开发3个步骤，并且分别“召集”了“策划”“文案”“程序员”“质检员”等智能体分头开展工作。

“程序员”在敲代码时，李彦宏说，“它写什么你完全不需要看懂，只要知道它在写就行”，因为写完之后会有“质检员”来检查代码能不能跑得通。

正在制作电子邀请函的秒哒丨百度世界大会2024

无代码编程、基于文心大模型的思考和规划能力对多智能体调度和编排、大模型对iRAG/地图API等多工具调用——这些能力将会让“秒哒”成为迄今为止最复杂的多智能体协作工具。

图片幻觉“消失术”

“去世界各地打卡”，这是生图工具出现之后，大家最喜欢的应用之一，哪怕是在百度世界大会现场，“AI合照”依然是最热闹的展台。

但怕就怕在，让AI生成一张打卡北京天坛的照片，结果把原本3层的祈年殿画成了4层，闹了笑话。

过去的AI生成了4层的祈年殿照片丨百度世界大会2024

这是因为，大模型是个概率模型，用它生成的内容具有不确定性。为了解决大模型本身的“幻觉”问题，这里需要提到一个技术——RAG。当大模型“知识储备”有限时，可以通过一些工程化手段（比如联网检索、知识库搜索等），先把相关信息找出来，再指导大模型进行回答，从而大大提升回复质量。

过去的RAG主要做在文本层面，但在图像等多模态方面还结合得不够，导致AI绘图常常也有“幻觉”的问题。因此百度开发了iRAG（image based RAG），也就是检索增强的文生图技术，将百度搜索积累的亿级图片资源和大模型能力相结合。

百度CTO王海峰简要介绍了iRAG技术：

首先，大模型对用户的需求进行分析理解，自动规划精确或泛化方案，比如对哪些实体进行增强；

接着，对需要增强的实体检索并选择相应的参考图；

最后，在生成阶段利用自研的多模可控生图大模型，一方面通过局部注意力计算，在保持实体特征不变的情况下，实现了图像的高泛化生成，另一方面通过整体注意力计算进行高精确的图像生成。

在用户的视角里，我们看到在iRAG技术下生成的“爱因斯坦打卡照”，少了“机器味儿”，“爱因斯坦”也更像本人——可以想象，在“特定背景中的特定人物拿着特定产品”这样的描述下，生成图像的质量和精确度一定会提升不少。李彦宏打趣说，“如果大众的海报生成的车型长得像丰田，那可就糟心了”。

用iRAG技术生成的“大众揽巡飞越长城”的写实风格照片，细节都很真实丨百度世界大会2024

放大看车型和车标，都没有错误丨百度世界大会2024

无幻觉、超真实、没成本、立等可取——具备了这些要素，AI生图就能代替以往为品牌拍一幅海报所花费的人力和财力成本，AI图片开始有了商业价值。

AI眼镜，让智能助理随身携带

不少人认为，如果大模型和智能体不能与物理世界产生连接，那么就等于没有价值。代表传统发布会的“实感”被留到了最后公布。这一次，搭载小度的不是智能音箱，而是一款AI眼镜。

发布会上，小度科技CEO李莹戴的就是它丨百度世界大会2024

作为“全球首款搭载中文大模型的原生AI眼镜”，它主打6个功能。

第一视角拍摄。

看到稍纵即逝、来不及掏出手机拍照的时刻，是不是特别希望眼睛有截图功能？有第一视角拍摄功能的眼镜就能做到——拍照、录像，都可以通过语音控制。眼镜毕竟轻（小度AI眼镜自重45g），人也可能在运动中，因此这款眼镜搭载了AI防抖算法，据小度科技CEO李莹介绍，防抖做到了“完美”；在镜头性能上，这个豆子大小的镜头用到了1600万像素的超广角——像素级别比刚出的iPhone 16前置摄像头高点儿。

适合在运动时候拍摄第一视角照片、视频丨百度世界大会2024

边走边问。

这个功能运用场景大多在室外。比如走在路上看见漂亮的历史建筑，请它来说说背后的故事，相当于雇了个“戳一下蹦跶一下”的AI导游。需要说一下的是，AI的回答是通过眼镜腿上的麦克风传出的。

“边走边问”的导游功能丨百度世界大会2024

识物百科。

有点类似于“边走边问”，但使用场景更广泛，包括但不限于识别花鸟虫鱼，甚至可以识别你面前一桌饭菜里大概含多少卡路里。这个功能确实是把百度的数据库优势物尽其用了。

识物百科在看展时候的应用丨百度世界大会2024

视听翻译。

发布会介绍不多，不太清楚这个翻译能做到什么程度，是只能翻译面前的外文文字，还是能做到同声传译？我们姑且保持期待。

发布会的介绍视频里只有阅读外文文字的翻译方式丨百度世界大会2024

智能备忘。

李莹在发布会中举的例子是，“阅读的时候用手点一下，点的内容就能智能备忘了”，至于怎么点、精确度怎么样，还尚不得知。除此之外，应该也可以像同类型产品一样，连通手机端、平板端的备忘录，在眼镜上进行语音提醒。

氛围歌单。

看起来似乎能结合你眼前的景色，选择符合氛围的音乐给你听。不过，我个人觉得这个功能不太讨好——面对同样的景色，有的人开心的有的人伤感，更别提大家千奇百怪的音乐审美了。

个性推歌这个功能，你怎么看？丨百度世界大会2024

展会现场，样品被框在了玻璃罩里。要等到明年上半年才上市，价格据说是“绝对很有诚意”。更多关于舒适度、使用体验、近视/远视友好等细节问题也待回答。

不过这场探讨“有价值的AI应用”的发布会，真是从线上延伸到了物理世界，从虚拟渗透到了现实。

作者：沈知涵，李小葵

编辑：Rex

本文来自果壳，未经授权不得转载.

如有需要请联系[email protected]