年初 AI 行业都在说今年会是 AI 硬件元年,现在看来这个说法对了一半,今年应该是 AI 眼镜的爆发前夜。Meta Ray-Ban 的爆火,让各家科技公司快速跟进。苹果内部启动「Atlas」的智能眼镜计划,OpenAI 消费硬件团队挖来了 Meta AR 眼镜主管。有媒体报道国内至少有 50 个团队在做 AI 眼镜,当中不乏小米、vivo、荣耀等硬件厂商。离大模型更近的互联网公司和 AI 公司自然也近水楼台,百度今天也正式发布了全球首款搭载中文大模型的原生 AI 眼镜——小度 AI 眼镜。在今天的百度世界大会 2024 上,百度还宣布文心大模型的日均调用量超 15 亿,相较一年前首次披露的 5000 万次,增长约 30 倍。李彦宏表示,「这条陡峭的增长曲线,代表着过去两年中国大模型应用的爆发。」回顾移动互联网的黄金十年,应用的爆发离不开智能手机的崛起。在混沌初开的 AI 时代,厂商开始寻找 AI 应用落地的载体。手机 PC 固然还是主流,但或许还有更适合 AI 的硬件形态,眼镜就是当下最被市场看好的一个形态之一。关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察
小度 AI 眼镜,打造中国的 Meta Ray-Ban 爆款在一众 AI 原生硬件昙花一现的 2024 年,Meta Ray-Ban 智能眼镜能够卖 300 多万台,几乎是目前最成功的 AI 硬件。它能被市场接受有几个关键的原因:功能简单,但仅有的几个功能体验都稳定好用,比如语音识别和降噪。定位清晰,一开始就没有奔着取代手机的设备去做,而是针对主流设备之外补充的场景提升。今天百度在发布首款 AI 眼镜时虽然没有提到 Meta Ray-Ban,但从产品形态和功能来看,也在沿着这些被验证的产品设计靠近。搭载 1600 万像素超广角摄像头,自研 AI 防抖算法
百度希望这款 AI 眼镜能够成为一部行走的百科全书。
依托百度地图的位置服务,以及百度搜索、百度百科深度融合,小度 AI 眼镜可以边走边问,结合视觉和定位的技术,随时随地地了解历史、文化和风土人情。在出国开会或者是逛博物馆时,小度 AI 眼镜不仅能够实时翻译,还能智能分析拍照的内容,提炼信息,特别是面对大段外文文字时,它也能轻松应对。在阅读时,它可以成为你的智能笔记助手,轻点即可将重点文字加入备忘录。百度的 AI 眼镜搭载文心大模型没有悬念,但同时其也搭载了 DuerOS AI 原生操作系统,在自然语言交互、多模态感知和拟人化呈现方面表现出色。另一方面,小度 AI 眼镜在硬件素质方面也不遑多让。小度 AI 眼镜搭载 1600 万像素的超广角摄像头,远超行业标准。相比之下,Meta Ray-Ban 眼镜也只是搭载了 1200 万像素的超广角摄像头。同时百度还自研了 AI 防抖的算法,不管是静态的风景还是动态的场景,都能表现出色。作为语音交互的重要载体设备,小度 AI 眼镜还具备敏锐的听觉能力。通过采用 4 麦克风阵列设计,小度 AI 眼镜不仅可以更立体地进行声音的捕捉,保障嘈杂环境下通话的清晰度,还能够更准确地识别声源的方向。此外,小度 AI 眼镜还采用了定制的开放式扬声器单元,声音更自然,音质也更清晰。值得注意的是,语音识别和降噪也是新一代 Meta Ray-Ban 最大的亮点之一,百度这款眼镜和 Meta Ray-Ban 的 5 麦克风阵列对比效果如何,也是后续用户体验很关键的地方基于低功耗电路架构设计,小度 AI 眼镜还能实现 56 个小时的待机,连续听歌 5 个小时。摘下眼镜休息 30 分钟,就可以快速充满电,真·全天候「智能」。和 Meta Ray-Ban 等产品类似,这款眼镜也是通过不搭载显示屏来保证长续航,这对于一款智能眼镜的体验来说十分关键。小度 AI 眼镜的重量达到了 45 克,比 Meta Ray-Ban 还轻了 4 克,能够减少对鼻梁和耳朵的压力,在长时间佩戴时更为舒适。此外,小度 AI 眼镜的外形设计与普通眼镜几乎无异,而且还有多个款式可供选择,兼顾实用性与时尚性。小度科技 CEO 李莹表示,小度 AI 眼镜是小度软硬智能化的集大成之作。这款眼镜计划明年上半年正式上市,而尚未公布的价格将成为最大悬念。据说会是一个「惊喜价格」。而此前也有消息称,小度 AI 眼镜的售价将低于 Meta Ray-Ban 眼镜的 299 美元。作为对比,国内 AI 眼镜的价格普遍在 2000 至 3000 元价位之间。比如雷鸟 Air 2、XREAL Air 2、Rokid MAX 等产品,起售价分别为 2499元、2599 元和 2999 元。大模型基本解决幻觉问题,两大「超级有用」AI 技术发布大模型已经发展了两年,那么对于 AI 行业而言,最大的变化是什么?大模型是一个概率模型,生成的内容具有不确定性。采用 RAG 技术后,大模型会利用检索到的信息来指导文本或答案的生成,从而极大提高内容的质量和准确性。今天,文字层面的 RAG 已经做得很好,但图像等多模态内容和 RAG 的结合还不够,或者说,至少没有文生文 RAG 解决得那么好。随手让图像模型生成一张天坛的照片,最后生成的天坛照片连层数都能弄混。为此,百度将百度搜索的亿级图片资源跟强大的基础模型能力进行结合,正式发布了文心 iRAG。文心 iRAG 主打无幻觉、超真实、没成本以及立等可取等的特点。此外,文心 iRAG 还能够精准生成特定物品/人物与任意背景,比如让不同 AI 模型生成爱因斯坦与天坛的打卡合照。相比之下,由 iRAG 生成的图像更真实,质量也更好。作为一项基础技术,iRAG 的应用空间广阔,比如影视作品、漫画作品,连续画本,海报制作等,AI 生图都可以大幅降低创作成本。另一个最新的 AI 技术,则是无代码工具「秒哒」。秒哒是一个不需要写代码,由大模型和智能体组成的全新软件。李彦宏表示,无需写代码,秒哒能够实现任意想法,让每个人都具备程序员的能力。我认为它是迄今为止人类历史上最复杂的多智能体协作工具。它包括无代码的编程,多智能体的协作,以及规模化调用各种工具的能力。
发布会现场举例称,假如我们需要打造一个萝卜快跑活动邀请系统,并把邀请函分享给其他人,收集想法和反馈,直接使用秒哒就可以满足这个需求。上传有关活动的时间、地点和主题,然后秒哒接收到指令之后,就会出现负责规划和调度的小组长智能体。它能够把任务拆解成了需求,确定内容,生产、答案工程开发这三个步骤,然后召唤各个智能体来协作完成这个任务。比如策划智能体(一号)负责活动邀请函的策划设计解决方案。然后策划智能体把这个任务又分拆成了核心需求、内容结构、开发需求、数据收集这四个子任务。接下来,小编智能体(二号)的主要职责就是编辑邀请函当中的所有的文字和媒体内容。以此类推,不断涌现出更多智能体来实现这一需求。当然,如果对成品的画风不太满意,想要更换的,输入想法之后,负责编写代码、制作和部署网页的程序员智能体会再写一次代码,直接给出新的版本。由此,我们可以总结出秒哒的三个特性——无代码编程,多智能体协作,多工具调用。李彦宏表示,即日起,用户可以排队预约秒哒,预计将在明年一季度正式发布。百度认为,智能体是 AI 应用的最主流形态,即将迎来它的爆发点。在今天的发布会上,李彦宏也将智能体分为了四类:公司类智能体、角色类智能体、工具类智能体、以及行业类智能体。公司类智能体可以简单理解成 AI 时代的公司官网,支持主动推荐,及时响应,一对一服务。举例来说,百度搜索比亚迪,唤醒官方智能体,让其推荐一款性能均衡的车型,以往你需要在传统官网研究很久,但智能体能够将参数捋清楚,以及回答各种个性化的问题。比起传统的官网,智能体既是你的品牌顾问,又是你的金牌销售和客服,既专业又贴心。据介绍,比亚迪官方智能体上线以后,它的销售线索的转化率提升了119%。联想 AI PC 的智能体,九月份互动率提升了 89%,销售线索的转化率提升了 80%。李彦宏表示,未来公司的官方智能体很可能会替代官网,成为最直接面向消费者的一个界面。最典型的例子当属数字人。百度搜索教育辅导,跳转的数字人的效果更自然,动作幅度更大。据李彦宏透露,数字人直播的转化率甚至超越了真人。可以说,有了数字虚拟人,我们从未如此离名师、名医、王牌律师这么近。自由画布支持输入自由,不限数据来源;编辑自由,改写扩写,续写都可以;创作自由;分享自由,支持用户个人云以及朋友圈。在发布会现场,李彦宏向我们展示了用自由画布创造大圣穿越到现代探险的故事。孙悟空在浏览打卡圣地后,最后来到了上海,不仅故事逻辑清晰,而且整体画面也没崩,一致性很好,甚至还能跳出条条框框,让小朋友融入到个人定制的画本当中。李彦宏也说了,自由画布不是期货,很快会正式上线,不妨期待一下。那么你可以咨询法律行业类智能体法行宝,它会给出详细的步骤指导,并且交通事故赔偿怎么计算,帮写一封交通事故起诉状,有了法行宝,这些都不是事。上线半年多以来,法行宝为 940 多万人提供了高效的、可信赖的法律服务,累计回答用户 1660 万个法律问题,堪称每个普通人专属的免费 AI 律师。在大模型的产业应用方面,目前有 15 万家企业、80 万开发者入驻文心智能体平台,而且有超 60% 的央国企和大量民营企业选择百度智能云进行 AI 创新。其中,百度智能云的千帆大模型平台已经累计帮助用户精调了 3.3 万个大模型,开发出了 77 万个企业应用,拥有中国最大的大模型产业落地的规模。就具体的落地合作案例来说,百度与百胜中国合作,打造大模型服务专区,实现大模型点餐。智联招聘则借助百度 AI 的服务,追求求职者与企业的双向奔赴,实现人岗匹配平均准确率达到 93%,大模型使用成本下降了 90%。写在最后,智能体站在新时代的风口浪尖,正在成为下一个应用爆发点。在人类信息技术演进的各个历史阶段,应用的形态各异,各领风骚。李彦宏表示,在个人 PC 时代,它们以软件和网站的形式出现;在移动互联网时代,它们转变为一个个 APP 和账号。而现在,在这个由 AI 主导的时代,智能体正在成为应用的主流形态。随着大模型技术的能力还在以指数级的跃迁,自然语言就成为了这个时代最重要的编程语言。我们每一个人都能够动手,创造一个属于自己的,也属于他人的 AI 应用或者智能体。国外有一种说法叫「软件吞噬世界」。但我认为,这个世界不应该被吞噬,而应该被创造。AI 时代,应用创造世界。