AGI时代,拥有大模型基座的字节重新做硬件,故事的走向会有何不同?2024年10月初,字节发布的豆包AI耳机Ola Friend曾掀起一阵热议。
Ola Friend售价1199元,无需打开手机就能通过语音唤起豆包进行对话,无论是信息查询和旅游出行,还是口语练习和情感交流,都能给出及时的反馈,很像一位赛博好友。4个月过去了,Ola Friend在京东、淘宝平台上的销量分别为1w+和6K+,累计销量不到Airpods季度销量的千分之一。目前字节AI耳机的话题热度显然被AI百镜大战盖过,比起耳机,大家似乎更关注AI眼镜。确实与AI眼镜相比,AI耳机是更加小众的AI硬件,小众到不足以各大电商平台为其单独设置品类,业界对AI耳机也没有十分明确的定义。声智科技产品副总裁黄赟贺在雷峰网连线直播时解释了AI耳机与传统TWS、OWS耳机的不同之处,这可能是感知AI耳机比较直观的方式。“AI耳机进一步提升了用户体验的智能化及丰富性。从技术层面看,AI耳机需要人工智能与声学算法的交叉技术作为底座,即要能够提供复杂场景内高质量的声音传输,还要具备低延时的语音交互的能力,实现从图形界面交互到语音交互的人机交互形态升级。从功能体验看,搭载AI智能体的AI耳机服务场景更多元,包含教育、工作、娱乐、生活等领域的‘管家式’服务,提供更便捷的信息获取方式。对于追求科技感和体验升级的消费者而言,AI耳机无疑提供了更前沿的选择。”Ola Friend除了在功能上更偏向生活助理的角色,其他方面符合黄赟贺对AI耳机的定义。但在IKKO联合创始人Echo Chan看来,真正的AI硬件应该有独立的载体和算力,即可以脱离手机APP独立运行,而Ola Friend本质上是通过手机APP完成所有功能,严格来讲不属于AI耳机。作为独立智能体的拥护派,往往会给耳机仓配备智能屏且开发了一套自有操作系统,即不连接手机APP耳机也能正常运行。既存在旨在帮助用户提高学习以及生产效率,实现会议录音和转写等AI辅助功能的产品,例如IKKO;也存在想要实现AI生活助理的愿景,包括存储用户即时输入的语音信息并发出提醒,帮助用户构建外部大脑,与豆包耳机的功能更加接近的生活助理类AI的产品,例如WISHEE。信奉“最先愿意为新技术服务的人群一定愿意为生产力工具付费”的Echo Chan不认同AI耳机作为生活助理暂时能够为用户提供多大帮助,但他肯定字节发布AI耳机的价值:“字节推出的这款产品扩大了大家对AI耳机的认知,且将价格定位在千元以上,已经产生品牌溢价,这对行业来说是积极的信号”,Echo Chan说到。在接受雷峰网采访的几周前,IKKO刚刚结束一场与小红书的直播合作,在直播15分钟完成100万gmv目标。谈及比豆包耳机更高的定价,Echo Chan表示前期打好用户基础非常重要,高价能够为产品打下很好的用户基础,与用户之间的互动能推动更加高效的产品迭代。Echo Chan向雷峰网透露,2024年IKKO的出货量大概达到6000万营业额,主要销往美国和欧洲,目前每个月的复合增长率达到30%以上,按照目前的增长趋势不下滑且产能充足的情况下,2025年的营业额能够达到1亿至2亿。库存不足是IKKO目前所面临的最大难题,生产效率有待进一步提升。IKKO可以是独立设备,豆包耳机离不开豆包APP,“只是作为链接豆包大模型的入口”也是Ola Friend被业界诟病最多的地方,认为这只是一次TWS耳机与语言大模型的粗糙结合,字节拿着锤子找钉子,在为豆包大模型找应用场景,Ola Friend没有很强的不可替代性。雷峰网了解到,字节曾与不止两家耳机公司洽谈合作事宜,条件是只接入豆包一家语言大模型,不少潜在合作对象认为豆包大模型和ChatGPT还有一定差距,且不愿意与豆包大模型深度绑定,因此拒绝了与字节的合作。但Oladance创始人李浩乾把耳机这一可穿戴设备当做入口的思路却意外与字节契合。李浩乾曾在2021年接受雷峰网采访时提出,元宇宙主要有两个入口场景,在家和办公室依托于重设备,在外通勤依托轻设备,耳机瞄准的是通勤场景,Oladance希望在TWS上做突破,建立链接元宇宙的入口。当时ChatGPT3.5尚未发布,元宇宙和Web3.0还是当红概念,TWS耳机的竞争已十分激烈,除了骨传导和助听器,业界对TWS耳机想象乏力。李浩乾的观点却让业界耳目一新,在新消费资本市场最低迷的时候,李浩乾的电话被投资人打爆。没能等到元宇宙,先等来了字节的豆包大模型。2024年4月,字节跳动以3-5亿元的价格收购Oladance,6个月的时间,Oladance作为人机语音交互的入口,完成了向AI耳机的华丽转身。追问字节能否做好一款AI耳机,本质上是在追问AI硬件到底是AI本身的能力更重要还是硬件能力更重要。
许多AI耳机赛道的玩家在同雷峰网的交流中表达了同样的观点:不认为自己是一家耳机公司,只是在开发AI硬件道路上恰好选中耳机这一形态。在第一波AI浪潮中创办时空壶的田力对此具有发言权,其W系列翻译耳机保留了TWS耳机的产品形态,但却舍弃了最核心的听音乐功能,更早期的产品甚至不能接电话。当时田力刚刚离开一家机器人硬件公司,想用AI技术本身做点有价值的事情。田力认为,彼时AI技术虽然很发达,但还缺少与普通人的需求链接。恰逢父母海外旅游时遇到交流障碍,在田力看来,尽管语音识别与机器翻译的技术已经较为成熟,但人们出国时依旧没有意识到可以利用该技术随时自由沟通,这表明AI技术与现实需求仍存在距离。在感知到AI领域的市场机遇及行业中潜存的问题后,2016年田力迅速组建团队,试图以“AI+翻译”构建跨语言沟通的多样场景。身为科幻迷的田力从《银河系漫游指南》中巴别鱼的设想中获得灵感,他认为在跨语言交流中,翻译不是要解决的核心问题,而是交流的沉浸感。从技术实现的角度,翻译耳机要求对话中的双方都拥有相同的耳机设备,只有在共享一副支持双通道耳机的情况下才能实现这一场景。早期的TWS耳机采用单通道互联技术,手机发射蓝牙信号时主耳先收到信号,再将信号发送给副耳,会出现信号不同步的情况。另外,如果增加听音乐的功能就要牺牲翻译所需要的算力,与田力所期望的沉浸感相悖。他认为既然时空壶要解决的核心问题是跨语言交流,就不应该给消费者“购买一副附带翻译功能耳机”的预期,田力团队重新撰写部分蓝牙协议,摒弃音乐播放功能,一副形似耳机实则是AI翻译设备由此而来。另一AI耳机品牌WISHEE联合创始人兼董事长张博在与雷峰网的交流过程中也多次提及WISHEE想要做的是独立的AI智能体而不是TWS耳机。这源于张博和团队其他同事此前的工作经历。张博在参与WISHEE创办之前是OPPO语言助手项目中的一员,见证过OPPO语音助手从0到1的搭建。在参与手机语音助手的项目过程中,张博发现,手机语音助手的本质是在和用户的对话框模式使用习惯打架,打赢的概率微乎其微。2011年,乔布斯推出Siri不久后离世,给苹果留下了Siri到底是做搜索引擎还是做智能助手的世纪难题,后来Siri团队核心成员离开,Siri的发展更是扑朔迷离。张博坚信乔布斯对Siri有更宏大的设想,重建可以直接进行语音交互调用的独立系统或许是未来方向之一。建立在这一构想之上,WISHEE推出了一款AI智能体产品AiEar并于2024年618正式售卖,售价1999元。从用户体验来看,AiEar比传统TWS多了一款植入耳机舱表面的智能屏幕,拥有独立的OS系统,可以插入esim卡实现语音通话,也可以作为移动wifi供其他移动设备连网使用。WISHEE的市场负责人向雷峰网展示了AiEar的其他功能,包括敲木鱼小游戏、电子宠物、番茄时钟、GPS导航、语音记忆等功能,谈及对AiEar未来的想象,这位负责人情绪饱满,表示还有更多的功能正在开发中。在加入WISHEE团队之前,WISHEE的市场负责人是一家公关公司的老板,服务过众多手机、耳机品牌,如今他几乎关掉了自己公关公司的业务,全盘押注WISHEE。据他透露,目前有一些考研党在使用AiEar,还有一部分不希望小朋友玩游戏的家长会买来送给孩子,WISHEE目前主要面向国内市场,正在与海外众筹平台洽谈计划出海。基于过往在AI声学领域的经验积累,科大讯飞旗下的未来智能是少有承认自己在做AI耳机的公司,且在产品研发的过程中愈发感受到硬件能力的重要性。未来智能CPO柳达本身也是一名耳机重度使用者。未来智能还没成立之前,柳达在科大讯飞消费者BG做云助手项目,每天的工作被大量的会议与信息充斥,耳机成为柳达最亲密的工作伙伴。在使用TWS耳机的过程中,柳达愈发觉得传统TWS耳机只满足了消费者最基本的需求,对于信息输入大于输出的用户来讲,完全没有发挥其作为工具的潜力,完全可以基于TWS耳机针对会议录音和纪要等功能进一步改善。柳达向雷峰网表示,早期组建团队时低估了硬件的重要性,团队软件成员数量远大于硬件人员,直到第一代产品发布,收到来自消费者的反馈认为与同等价位的TWS耳机相比,讯飞AI会议耳机作为硬件产品不达预期,后来及时调整提高硬件人员的占比,耳机品质才得以改善。一副兼具TWS基本能力的AI耳机在硬件层面需要解决来自续航能力、声学设计、硬件堆叠与散热等方面的技术难题。TWS耳机要求体积小,能够容纳的电池体积有限,对续航能力构成挑战,尤其是主动降噪式耳机需要多颗麦克风,如果要实现本地存储功能还需要额外增加闪存芯片,进一步压缩电池空间。AI功能的增加和运行会消耗更多电量并产生热量,例如语音识别、语义理解、语音增强等功能的实现都需要持续供电。少数高端TWS耳机有能力采用SiP封装节省空间,但这一封装方式技术难度大且价格昂贵,也会增加产品成本。“可以想象成是把聪明的大脑装进小盒子里,需要非常流畅、精准和省电”,柳达如此形容。通过不断增强硬件队伍和几代耳机的研发升级,未来智能推出的讯飞AI会议耳机iFLYBUDS PRO2在续航方面已经做到单次使用长达9小时,搭配充电盒可延长至36小时。在去年双十一上,讯飞AI会议耳机的销售额在天猫、抖音两大平台的入耳式蓝牙耳机大类目中销售额排名第一,在京东AI耳机品类占据榜首。回到豆包AI耳机本身,字节坐拥AI基础设施,至少与需要调用非自家大模型API的创业公司相比,豆包AI耳机将最核心的数据资产始终握在自己手中,但另一方面与某一模型深度绑定也意味着前期需要经历漫长的磨合期和迭代期,与可以同时接入多家大模型的中小厂商相比,前期语音交互的准确率不占优势。与此同时,大厂做AI硬件也有决策慢、流程长的问题。一位业内人士告诉雷峰网,目前还没有听闻大厂All in AI硬件的消息,基本都是中小厂All in,大厂内部审批及决策流程非常漫长,需要结合公司主营业务拓展赛道,预计25年下半年才会有大厂正式入局AI硬件,留给中小厂的窗口期还有半年至一年。有关大厂AI硬件的最新动态,欢迎添加本文作者微信Yolanda_Zuu爆料。Echo Chan也表示,预计25年下半年IKKO才会遇到真正的竞争对手,且更有可能来自手机大厂而非互联网大厂,因为手机厂商在硬件供应链方面比互联网大厂更强势。FoloToy创始人王乐认为只有高集成度才能提升系统级的体验,手机厂商这方面占据优势。以字节为首的互联网大厂做AI硬件具备人才与资金优势。关注AI硬件创业的真格基金投资经理李钰看好互联网大厂的软件产品经理创业做AI硬件,如果再找到懂供应链和硬件生产的专家一起组建团队,会是一个好标的。“因为硬件从业者只擅长做标准化,售后受限,不适合主导这件事,而软件是需要持续迭代。”王乐也表示,深圳做硬件和方案的公司转型做AI的难点在于之前做方案的毛利很低,利润不足以支撑公司招软件和AI方面的人才,成本挑战大。“AI是技术基座,耳机本身是交互载体,各占一半,但最终服务的是人,用户体验才是最重要的”,田力认为找到能够为用户提供服务的切入点比讨论AI重要还是耳机重要更有意义。
无论是否承认自己是一家AI耳机公司,还是将自己单纯定义为AI硬件公司,这些选择将AI与耳机产品形态结合的公司无一例外都认同从供应链成熟度以及AI语音交互形式来看,现阶段耳机是比眼镜更能承载AI能力的硬件载体。目前市面上的AI硬件产品大致可以分为两大类,一类是在传统智能硬件的基础上做生成式AI的加持,例如在眼镜、耳机上增加AI功能,不改变原有的产品形态;另一类是AI重塑产品形态,创造新的用户需求和应用场景,例如一年前爆火的AI Pin和Rabbit。第一类的支持者认为从人类技术发展史来看,产品形态基本没有太多变化,手表、手机、耳机等几十年前就已经存在,这证明用户很难被教育,AI硬件需要在原本不够智能化的地方发力,而不是创造全新且无用的东西再思考如何智能化。第二类的支持者一部分认为AI的能力强大到需要全新的产品形态来承载,另一部分集中在研发为人类提供陪伴和情绪价值的AI玩具,因娱乐性和高容错性也已经有一定的市场。欢迎添加本文作者Yolanda_Zuu交流讨论中国AI硬件江湖。AI耳机更像是介于第一类和第二类之间的产品。耳机本身发展已久,TWS耳机掀起的浪潮已经培养起用户对耳机的依赖和长期佩戴的可能性。根据Canalys的最新研究,TWS在2024年第二季度仍然是全球智能个人音频市场的领导者,以12.6%的年增长率巩固了72.6%的市场份额。TWS耳机的爆火已经证明了耳机本身不与手机直接竞争,甚至填充了无法使用手机的时间,在交互形式上具备优势。建立在大家对耳机高接受度的基础之上,一方面可以基于生成式大模型在AI语音助手再升级,另一方面耳机舱也有很多可探索的空间。进入低价竞争时代的TWS耳机也已经建立起成熟的产业供应链,即便是AI耳机需要根据新增的功能植入存储器、射频等器件,与TWS耳机供应链有所不同,但也能被成熟的手机供应链所覆盖。从交互习惯的角度来看,也有观点认为AI耳机没有想象中那么容易被用户接受。RWKV联合创始人罗璇表示:与手指操作相比,纯语音交互是一件更加困难、更加耗能且泄漏隐私的事情。而且在人类历史上,手指操作工具比语言更早出现。因此更看好AI眼镜,手指+语音的模式。柳达在十年前就思考过,何时我们使用语音交互的频率能够同对话框交互一样高:一是需要在技术和体验层面有重大突破,不仅是技术改进还包括用户习惯的改变;二是语音识别需要更加精准,对话的自然度和流畅度进一步提高,语义理解能力进一步增强;三是多模态融合会是未来大趋势,语言交互和指尖交互无缝切换。这也是AI耳机玩家们曾经思考过或正在思考的问题。李浩乾曾在2021年与雷峰网对话时表示,Oladance在做TWS耳机之前就是尝试过做眼镜,但发现市场不成熟最后选择放弃。WISHEE曾经也尝试探索AI眼镜,发现AI眼镜不仅需要考虑如何存储视频数据,还需要高维度提取特征,而AI耳机在技术上已经准备好。IKKO也表示,在做AI耳机的同时也有对AI眼镜的积极探索。或许从多模态融合的趋势来看,有视觉交互可能性的AI眼镜确实会是AI耳机的终极形态,但从AI耳机到AI眼镜还有很长的一段路要走。AI硬件大战,好戏才刚刚开始。雷峰网持续关注创新硬件产业动态,后续将推出AI眼镜相关报道《AI眼镜,等待小米发牌》,更多创新硬件的精彩故事,欢迎添加本文作者微信Yolanda_Zuu。