专栏名称: 果壳
果壳网(Guokr.com)是开放、多元的泛科技兴趣社区。
目录
相关文章推荐
科普中国  ·  羊曲水电站首台机组并网发电 ·  3 天前  
知识分子  ·  哈佛大学医学人类学家和下一代医生的对话 ·  4 天前  
51好读  ›  专栏  ›  果壳

看完百度的智能体,我突然知道怎么摸鱼了(屏蔽老板版)

果壳  · 公众号  · 科学  · 2024-11-12 20:26

正文

智能体是什么?


几个月前,我们大概会模糊地认为,它是一种AI大模型赋能应用场景的新形态。今天,对概念做进一步的阐释显然不那么重要了,直接上手做就行


2024年的百度世界大会上,文心智能体平台(AgentBuilder)展区的工作人员,正极力招呼每一位路过的观众来搭一个智能体(又叫“Agent”),“我们已经极大程度减少做一个智能体所用的代码了”。的确,观众不到1分钟就能“手搓”一个智能体,然后欣慰离开


热闹的智能体展区丨百度世界大会2024


与市面上已有的对智能体的形容不同,百度创始人李彦宏说,智能体就像移动时代的自媒体账号——首先它的开发门槛足够低,人人都能上手;另外,它可能会变成AI原生时代里,内容、信息和服务的新载体


一切皆可智能体


智能体可以做什么?


展区内,你可以向“农民院士智能体”请教怎么播种旱地稻;你会接到“销售客服智能体”的电话,在对方耐心全面的解答下,心甘情愿续费车险;或者写一段“大圣穿越到现代”的故事,用“文生图智能体”将它创作成漫画。


利用智能体文生图制作的漫画丨百度世界大会2024


目前,文心智能体平台上已有分布在各个行业的15万家企业和80万名开发者


根据应用的方向,李彦宏将智能体分成了4类:公司类(相当于传统的官网、公众号、企业号等)、角色类(数字人直播)、工具类(AI写作、一键生成PPT等)、行业类(用于招聘、金融、客服等垂直领域)。


他重点介绍了一款工具类智能体,“自由画布”。


它真的很自由。这款智能体打通了百度文库上的公域资料,以及百度网盘上的私域数据,让找资料、编辑、生成、分享这一流程更加丝滑。


“自由”的另一个体现是,素材不被来源、格式、形式限制。不管是录音的通话、图文结合的行业报告,还是发布会的视频,都可以被“拖拽”到这块画布上,按照用户需求生成一个全新的富媒体内容。


“自由画布”太自由了,以至于很难一句话介绍,可以等着体验一下丨百度世界大会2024


“门槛低,人人可用”是一个前提,“天花板得足够高,多个智能体协作,才能解决更加复杂的问题”又是另一个前提。对此,百度官宣了秒哒,一个零代码应用开发平台(将于明年第一季度上线)。


李彦宏以“为萝卜快跑发布会搭建活动报名系统”为例。


输入需求后,一个负责规划的智能体首先出现,将任务拆解成需求确定、内容生产、工程开发3个步骤,并且分别“召集”了“策划”“文案”“程序员”“质检员”等智能体分头开展工作。


“程序员”在敲代码时,李彦宏说,“它写什么你完全不需要看懂,只要知道它在写就行”,因为写完之后会有“质检员”来检查代码能不能跑得通。


正在制作电子邀请函的秒哒丨百度世界大会2024


无代码编程、基于文心大模型的思考和规划能力对多智能体调度和编排、大模型对iRAG/地图API等多工具调用——这些能力将会让“秒哒”成为迄今为止最复杂的多智能体协作工具


图片幻觉“消失术”


“去世界各地打卡”,这是生图工具出现之后,大家最喜欢的应用之一,哪怕是在百度世界大会现场,“AI合照”依然是最热闹的展台。


但怕就怕在,让AI生成一张打卡北京天坛的照片,结果把原本3层的祈年殿画成了4层,闹了笑话。


过去的AI生成了4层的祈年殿照片丨百度世界大会2024


这是因为,大模型是个概率模型,用它生成的内容具有不确定性。为了解决大模型本身的“幻觉”问题,这里需要提到一个技术——RAG。当大模型“知识储备”有限时,可以通过一些工程化手段(比如联网检索、知识库搜索等),先把相关信息找出来,再指导大模型进行回答,从而大大提升回复质量。


过去的RAG主要做在文本层面,但在图像等多模态方面还结合得不够,导致AI绘图常常也有“幻觉”的问题。因此百度开发了iRAG(image based RAG),也就是检索增强的文生图技术,将百度搜索积累的亿级图片资源和大模型能力相结合


百度CTO王海峰简要介绍了iRAG技术:


首先,大模型对用户的需求进行分析理解,自动规划精确或泛化方案,比如对哪些实体进行增强;


接着,对需要增强的实体检索并选择相应的参考图;


最后,在生成阶段利用自研的多模可控生图大模型,一方面通过局部注意力计算,在保持实体特征不变的情况下,实现了图像的高泛化生成,另一方面通过整体注意力计算进行高精确的图像生成。


在用户的视角里,我们看到在iRAG技术下生成的“爱因斯坦打卡照”,少了“机器味儿”,“爱因斯坦”也更像本人——可以想象,在“特定背景中的特定人物拿着特定产品”这样的描述下,生成图像的质量和精确度一定会提升不少。李彦宏打趣说,“如果大众的海报生成的车型长得像丰田,那可就糟心了”。


用iRAG技术生成的“大众揽巡飞越长城”的写实风格照片,细节都很真实丨百度世界大会2024


放大看车型和车标,都没有错误丨百度世界大会2024


无幻觉、超真实、没成本、立等可取——具备了这些要素,AI生图就能代替以往为品牌拍一幅海报所花费的人力和财力成本,AI图片开始有了商业价值


AI眼镜,让智能助理随身携带


不少人认为,如果大模型和智能体不能与物理世界产生连接,那么就等于没有价值。代表传统发布会的“实感”被留到了最后公布。这一次,搭载小度的不是智能音箱,而是一款AI眼镜


发布会上,小度科技CEO李莹戴的就是它丨百度世界大会2024


作为“全球首款搭载中文大模型的原生AI眼镜”,它主打6个功能。


第一视角拍摄


看到稍纵即逝、来不及掏出手机拍照的时刻,是不是特别希望眼睛有截图功能?有第一视角拍摄功能的眼镜就能做到——拍照、录像,都可以通过语音控制。眼镜毕竟轻(小度AI眼镜自重45g),人也可能在运动中,因此这款眼镜搭载了AI防抖算法,据小度科技CEO李莹介绍,防抖做到了“完美”;在镜头性能上,这个豆子大小的镜头用到了1600万像素的超广角——像素级别比刚出的iPhone 16前置摄像头高点儿。


适合在运动时候拍摄第一视角照片、视频丨百度世界大会2024


边走边问


这个功能运用场景大多在室外。比如走在路上看见漂亮的历史建筑,请它来说说背后的故事,相当于雇了个“戳一下蹦跶一下”的AI导游。需要说一下的是,AI的回答是通过眼镜腿上的麦克风传出的


“边走边问”的导游功能丨百度世界大会2024


识物百科


有点类似于“边走边问”,但使用场景更广泛,包括但不限于识别花鸟虫鱼,甚至可以识别你面前一桌饭菜里大概含多少卡路里。这个功能确实是把百度的数据库优势物尽其用了。


识物百科在看展时候的应用丨百度世界大会2024


视听翻译


发布会介绍不多,不太清楚这个翻译能做到什么程度,是只能翻译面前的外文文字,还是能做到同声传译?我们姑且保持期待。


发布会的介绍视频里只有阅读外文文字的翻译方式丨百度世界大会2024


智能备忘


李莹在发布会中举的例子是,“阅读的时候用手点一下,点的内容就能智能备忘了”,至于怎么点、精确度怎么样,还尚不得知。除此之外,应该也可以像同类型产品一样,连通手机端、平板端的备忘录,在眼镜上进行语音提醒。


氛围歌单


看起来似乎能结合你眼前的景色,选择符合氛围的音乐给你听。不过,我个人觉得这个功能不太讨好——面对同样的景色,有的人开心的有的人伤感,更别提大家千奇百怪的音乐审美了。


个性推歌这个功能,你怎么看?丨百度世界大会2024


展会现场,样品被框在了玻璃罩里。要等到明年上半年才上市,价格据说是“绝对很有诚意”。更多关于舒适度、使用体验、近视/远视友好等细节问题也待回答。


不过这场探讨“有价值的AI应用”的发布会,真是从线上延伸到了物理世界,从虚拟渗透到了现实。


作者:沈知涵,李小葵

编辑:Rex


本文来自果壳,未经授权不得转载.

如有需要请联系[email protected]