专栏名称: APPSO
让智能手机更好用的秘密。
目录
相关文章推荐
APPSO  ·  iPhone 17 Air ... ·  3 天前  
APPSO  ·  从 GPT-2 开始玩 AI ... ·  4 天前  
小众软件  ·  另外两件事[241118] ·  5 天前  
小众软件  ·  另外两件事[241117] ·  6 天前  
51好读  ›  专栏  ›  APPSO

百度发布首款 AI 眼镜!比 Meta 爆款更卷,苹果也在押注的智能眼镜正在爆发

APPSO  · 公众号  · app  · 2024-11-12 15:32

正文

年初 AI 行业都在说今年会是 AI 硬件元年,现在看来这个说法对了一半,今年应该是 AI 眼镜的爆发前夜。
Meta Ray-Ban 的爆火,让各家科技公司快速跟进。苹果内部启动「Atlas」的智能眼镜计划,OpenAI 消费硬件团队挖来了 Meta AR 眼镜主管。
有媒体报道国内至少有 50 个团队在做 AI 眼镜,当中不乏小米、vivo、荣耀等硬件厂商。
离大模型更近的互联网公司和 AI 公司自然也近水楼台,百度今天也正式发布了全球首款搭载中文大模型的原生 AI 眼镜——小度 AI 眼镜
在今天的百度世界大会 2024 上,百度还宣布文心大模型的日均调用量超 15 亿,相较一年前首次披露的 5000 万次,增长约 30 倍。
李彦宏表示,「这条陡峭的增长曲线,代表着过去两年中国大模型应用的爆发。」
回顾移动互联网的黄金十年,应用的爆发离不开智能手机的崛起。在混沌初开的 AI 时代,厂商开始寻找 AI 应用落地的载体。
手机 PC 固然还是主流,但或许还有更适合 AI 的硬件形态,眼镜就是当下最被市场看好的一个形态之一。

关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察

小度 AI 眼镜,打造中国的 Meta Ray-Ban 爆款
在端侧硬件中,AI 智能眼镜讲出了最性感的故事。
在一众 AI 原生硬件昙花一现的 2024 年,Meta Ray-Ban 智能眼镜能够卖 300 多万台,几乎是目前最成功的 AI 硬件。它能被市场接受有几个关键的原因:

佩戴体验接近日常,重量已经没有比常规眼镜重太多。

功能简单,但仅有的几个功能体验都稳定好用,比如语音识别和降噪。

定位清晰,一开始就没有奔着取代手机的设备去做,而是针对主流设备之外补充的场景提升。
今天百度在发布首款 AI 眼镜时虽然没有提到 Meta Ray-Ban,但从产品形态和功能来看,也在沿着这些被验证的产品设计靠近。

具备第一视角拍摄,边走边问、识物百科等六大功能

搭载 1600 万像素超广角摄像头,自研 AI 防抖算法

采用 4 麦克风阵列设计,集成开放式扬声器

支持 56 个小时超长待机,半小时充满电

重量仅 45 克,有多种款式可供选择
APPSO 在现场




百度希望这款 AI 眼镜能够成为一部行走的百科全书。

依托百度地图的位置服务,以及百度搜索、百度百科深度融合,小度 AI 眼镜可以边走边问,
结合视觉和定位的技术,随时随地地了解历史、文化和风土人情。
在出国开会或者是逛博物馆时,小度 AI 眼镜不仅能够实时翻译,还能智能分析拍照的内容,提炼信息,特别是面对大段外文文字时,它也能轻松应对。
在阅读时,它可以成为你的智能笔记助手,轻点即可将重点文字加入备忘录。
百度的 AI 眼镜搭载文心大模型没有悬念,但同时其也搭载了 DuerOS AI 原生操作系统,在自然语言交互、多模态感知和拟人化呈现方面表现出色。
另一方面,小度 AI 眼镜在硬件素质方面也不遑多让。
小度 AI 眼镜搭载 1600 万像素的超广角摄像头,远超行业标准。相比之下,Meta Ray-Ban 眼镜也只是搭载了 1200 万像素的超广角摄像头。
同时百度还自研了 AI 防抖的算法,不管是静态的风景还是动态的场景,都能表现出色。
作为语音交互的重要载体设备,小度 AI 眼镜还具备敏锐的听觉能力。
通过采用 4 麦克风阵列设计,小度 AI 眼镜不仅可以更立体地进行声音的捕捉,保障嘈杂环境下通话的清晰度,还能够更准确地识别声源的方向。
此外,小度 AI 眼镜还采用了定制的开放式扬声器单元,声音更自然,音质也更清晰。
值得注意的是,语音识别和降噪也是新一代 Meta Ray-Ban 最大的亮点之一,百度这款眼镜和 Meta Ray-Ban 的 5 麦克风阵列对比效果如何,也是后续用户体验很关键的地方
基于低功耗电路架构设计,小度 AI 眼镜还能实现 56 个小时的待机,连续听歌 5 个小时。
摘下眼镜休息 30 分钟,就可以快速充满电,真·全天候「智能」。
和 Meta Ray-Ban 等产品类似,这款眼镜也是通过不搭载显示屏来保证长续航,这对于一款智能眼镜的体验来说十分关键。
作为全天候佩戴的眼镜,轻薄是必不可少的。
小度 AI 眼镜的重量达到了 45 克,比 Meta Ray-Ban 还轻了 4 克,能够减少对鼻梁和耳朵的压力,在长时间佩戴时更为舒适。
此外,小度 AI 眼镜的外形设计与普通眼镜几乎无异,而且还有多个款式可供选择,兼顾实用性与时尚性。
既有里子,也要面子。
小度科技 CEO 李莹表示,小度 AI 眼镜是小度软硬智能化的集大成之作。这款眼镜计划明年上半年正式上市,而尚未公布的价格将成为最大悬念。
据说会是一个「惊喜价格」。而此前也有消息称,小度 AI 眼镜的售价将低于 Meta Ray-Ban 眼镜的 299 美元。
作为对比,国内 AI 眼镜的价格普遍在 2000 至 3000 元价位之间。比如雷鸟 Air 2、XREAL Air 2、Rokid MAX 等产品,起售价分别为 2499元、2599 元和 2999 元。
大模型基本解决幻觉问题,两大「超级有用」AI 技术发布
大模型已经发展了两年,那么对于 AI 行业而言,最大的变化是什么?
李彦宏给出的答案是,大模型基本消除了幻觉。
大模型是一个概率模型,生成的内容具有不确定性。采用 RAG 技术后,大模型会利用检索到的信息来指导文本或答案的生成,从而极大提高内容的质量和准确性。
今天,文字层面的 RAG 已经做得很好,但图像等多模态内容和 RAG 的结合还不够,或者说,至少没有文生文 RAG 解决得那么好。
随手让图像模型生成一张天坛的照片,最后生成的天坛照片连层数都能弄混。为此,百度将百度搜索的亿级图片资源跟强大的基础模型能力进行结合,正式发布了文心 iRAG。
文心 iRAG 主打无幻觉、超真实、没成本以及立等可取等的特点。
此外,文心 iRAG 还能够精准生成特定物品/人物与任意背景,比如让不同 AI 模型生成爱因斯坦与天坛的打卡合照。相比之下,由 iRAG 生成的图像更真实,质量也更好。
作为一项基础技术,iRAG 的应用空间广阔,比如影视作品、漫画作品,连续画本,海报制作等,AI 生图都可以大幅降低创作成本。
另一个最新的 AI 技术,则是无代码工具「秒哒」。
秒哒是一个不需要写代码,由大模型和智能体组成的全新软件。李彦宏表示,无需写代码,秒哒能够实现任意想法,让每个人都具备程序员的能力。
我认为它是迄今为止人类历史上最复杂的多智能体协作工具。它包括无代码的编程,多智能体的协作,以及规模化调用各种工具的能力。
发布会现场举例称,假如我们需要打造一个萝卜快跑活动邀请系统,并把邀请函分享给其他人,收集想法和反馈,直接使用秒哒就可以满足这个需求。
上传有关活动的时间、地点和主题,然后秒哒接收到指令之后,就会出现负责规划和调度的小组长智能体。
它能够把任务拆解成了需求,确定内容,生产、答案工程开发这三个步骤,然后召唤各个智能体来协作完成这个任务。比如策划智能体(一号)负责活动邀请函的策划设计解决方案。
然后策划智能体把这个任务又分拆成了核心需求、内容结构、开发需求、数据收集这四个子任务。
接下来,小编智能体(二号)的主要职责就是编辑邀请函当中的所有的文字和媒体内容。以此类推,不断涌现出更多智能体来实现这一需求。
当然,如果对成品的画风不太满意,想要更换的,输入想法之后,负责编写代码、制作和部署网页的程序员智能体会再写一次代码,直接给出新的版本。
而在这个过程中,你不需要懂得任何代码。
由此,我们可以总结出秒哒的三个特性——无代码编程,多智能体协作,多工具调用。
李彦宏表示,即日起,用户可以排队预约秒哒,预计将在明年一季度正式发布。
AI 应用时代,真的来了
百度认为,智能体是 AI 应用的最主流形态,即将迎来它的爆发点。
在今天的发布会上,李彦宏也将智能体分为了四类:公司类智能体、角色类智能体、工具类智能体、以及行业类智能体。
公司类智能体
公司类智能体可以简单理解成 AI 时代的公司官网,支持主动推荐,及时响应,一对一服务。
举例来说,百度搜索比亚迪,唤醒官方智能体,让其推荐一款性能均衡的车型,以往你需要在传统官网研究很久,但智能体能够将参数捋清楚,以及回答各种个性化的问题。
比起传统的官网,智能体既是你的品牌顾问,又是你的金牌销售和客服,既专业又贴心。
据介绍,比亚迪官方智能体上线以后,它的销售线索的转化率提升了119%。联想 AI PC 的智能体,九月份互动率提升了 89%,销售线索的转化率提升了 80%。
李彦宏表示,未来公司的官方智能体很可能会替代官网,成为最直接面向消费者的一个界面。
角色类智能体
高度拟人化的智能体,则更聪明,有情感,有态度。
最典型的例子当属数字人。百度搜索教育辅导,跳转的数字人的效果更自然,动作幅度更大。据李彦宏透露,数字人直播的转化率甚至超越了真人。
可以说,有了数字虚拟人,我们从未如此离名师、名医、王牌律师这么近。
工具类智能体
百度文库和百度网盘还联合发布了自由画布。
自由画布支持输入自由,不限数据来源;编辑自由,改写扩写,续写都可以;创作自由;分享自由,支持用户个人云以及朋友圈。
在发布会现场,李彦宏向我们展示了用自由画布创造大圣穿越到现代探险的故事。
孙悟空在浏览打卡圣地后,最后来到了上海,不仅故事逻辑清晰,而且整体画面也没崩,一致性很好,甚至还能跳出条条框框,让小朋友融入到个人定制的画本当中。
李彦宏也说了,自由画布不是期货,很快会正式上线,不妨期待一下。
行业类智能体
被车撞了,对方全责,却不给赔偿怎么办?
那么你可以咨询法律行业类智能体法行宝,它会给出详细的步骤指导,并且交通事故赔偿怎么计算,帮写一封交通事故起诉状,有了法行宝,这些都不是事。
上线半年多以来,法行宝为 940 多万人提供了高效的、可信赖的法律服务,累计回答用户 1660 万个法律问题,堪称每个普通人专属的免费 AI 律师。
在大模型的产业应用方面,目前有 15 万家企业、80 万开发者入驻文心智能体平台,而且有超 60% 的央国企和大量民营企业选择百度智能云进行 AI 创新。
其中,百度智能云的千帆大模型平台已经累计帮助用户精调了 3.3 万个大模型,开发出了 77 万个企业应用,拥有中国最大的大模型产业落地的规模。
就具体的落地合作案例来说,百度与百胜中国合作,打造大模型服务专区,实现大模型点餐。
智联招聘则借助百度 AI 的服务,追求求职者与企业的双向奔赴,实现人岗匹配平均准确率达到 93%,大模型使用成本下降了 90%。
写在最后,智能体站在新时代的风口浪尖,正在成为下一个应用爆发点。
在人类信息技术演进的各个历史阶段,应用的形态各异,各领风骚。
李彦宏表示,在个人 PC 时代,它们以软件和网站的形式出现;在移动互联网时代,它们转变为一个个 APP 和账号。
而现在,在这个由 AI 主导的时代,智能体正在成为应用的主流形态。
随着大模型技术的能力还在以指数级的跃迁,自然语言就成为了这个时代最重要的编程语言。我们每一个人都能够动手,创造一个属于自己的,也属于他人的 AI 应用或者智能体。
如李彦宏在演讲的尾声所说:
国外有一种说法叫「软件吞噬世界」。但我认为,这个世界不应该被吞噬,而应该被创造。AI 时代,应用创造世界。