当生成式AI迎来产业爆发期,具身智能行业也迎来了“智变时刻”。5亿年前,眼睛等重要感知器官的出现,加速了新物种的“爆发”;如今,AI正以具身智能机器人为载体,感知并走进真实物理世界,成为人工智能时代的下一个“浪潮”。
12月20日,“AIRS2024国际人工智能与机器人大会”召开期间,百度智能云特别主办了“千帆思享会:大模型加速具身智能协同进化”专题论坛。论坛上,二十余家产业链上下游企业高管、专家学者、投资机构合伙人等,现场分享了行业最新研究成果与实际应用的解决方案,结合大模型落地实战经验进行了深入探讨。
人工智能掀起的AI应用浪潮,正搅动整个产业界。具身智能可能是当下创新最为密集发生的赛道,集中了产学研顶尖科技人才。“加速协同是一个非常重要的起点”,深圳市人工智能与机器人研究院常务副院长丁宁在致辞中称,“大模型的突飞猛进让大家有了信心,人工智能与机器人有了交叉融合的可能性,硬件和软件可以用统一的方法论进行迭代优化,形成一种智能的综合能力”。
“技术的驱动带来新的生产力的变革,新的生产力的变革之下一定会引领非常多的创新风潮”,百度智能云泛科技业务部总经理张玮认为,具身智能是物理世界中的智能体,强调与真实世界的交互,能做的事情会比目前大家已经熟悉的生成式AI大模型更多,“这是一条长坡厚雪、高天花板的赛道,应用场景市场规模上限高,会诞生一批伟大企业”。
深圳市人工智能与机器人研究院具身智能中心主任刘少山判断,具身智能行业的可扩展性(Scalability),使它的商业模式更接近互联网,市场远大于互联网和汽车,是解锁十万亿美元级市场的关键。
具身智能系统不能依赖靠人写代码的逻辑去衍生智能,目前这个问题已经初步得到解决,大模型具备的推理能力,可以在遇到一些新场景时推算出解决方案。此外,具身智能需要具备自我学习能力,从环境互动中获取、习得智能。“很多人认为,将大模型装在机器上,就等同于具身智能,这是不成立的”,刘少山指出,“(机器人)需要建立元学习系统”。目前,深圳市人工智能与机器人研究院的具身智能开源项目“AIRSHIP”正在推进面向下一代具身智能的通用元学习智能体的研发工作。
作为物理世界中的智能体,有了空间智能就有了具身智能。现阶段,大模型大多以语言或2D图片训练,把一个3D场景逆势回2D图很简单,但2D图片却无法准确还原成3D场景。
对此,香港中文大学(深圳)数据科学学院助理教授刘桂良认为,“重新训练一个模型,让它能理解3D知识,尝试把大模型、空间智能、运动规划与控制连接在一起”,是使具身智能在scaling law范式下进行发展的前提。
刘教授也着重分享了“数据-仿真-AI-部署”的落地闭环方案,基于此,跨维智能开发了实现通用机器人智能的AI和合成数据引擎DexVerse™,以及背后提供支持的一系列具身智能关键技术,包括3D生成式AI、可微分仿真和渲染、3D基础模型的架构设计和学习、模型轻量化等。另外,跨维智能也推出了首款高通用性具身人形机器人,将自身的核心技术积累进行产品化落地。
百度智能云参与具身智能产业赛道的角色定位是产业赋能者,聚焦于支撑客户做好关键技术及产品的研发工作。具体到具身智能机器人应用落地面临的挑战,百度智能云泛科技行业具身智能赛道负责人张龙君提到,当前业界主要围绕“负责high-level指令理解和任务规划的“大脑”、负责移动控制和操作控制的“小脑”、服务于具身模型训练的具身智能数据集建设、以及本体软硬件相关能力建设”四个方面展开攻坚工作。
对此,百度智能云具身智能解决方案,主要提供包括AI Infra、具身数据采标服务、云上仿真平台、大语言模型及开发平台、人机语音交互方案、云管端一体化安全六大方向的支持,全方位助力厂商企业构建产品核心能力。
NVIDIA中国区机器人解决方案架构师总监舒家明分享到,“正是因为大模型能力已演进到一定地步,才让物理AI(Physical AI)变得可行或者说可实现”。大模型的理解、推理能力使机器人可以脱离“遥控器”,从按步骤运行的“指令式”进化出“大脑”,但它无法解决具身智能完成任务的过程,如开抽屉、炒菜颠勺等具体事项,这些可以通过仿真实现机器人的强化学习。同时,仿真也是最低成本的获得有效数据的最佳方式。
“和很多同行交流时,会听到大家用‘革命性’这个词来描述大模型给行业带来的影响”,面壁智能副总裁周树峰回忆称:“这种’革命性’来源于感知革命。”过去,具身系统专注在突破导航、控制、操作等方面的能力,大模型的引入会极大提高具身大脑的认知、推理、决策和理解力,进而可以从竞赛和科研场景中,延展到工厂、家居等商业场景。
面壁智能是一家专注端侧大模型的公司,在端侧模型实现了多项突破。在基座模型上以4B参数达到了GPT-3.5水平,9月份发布的MiniCPM-V2.6多模态模型达到端侧GPT-4V。今年2月发布以来,面壁小钢炮MiniCPM系列累计下载量近400万,在Hugging Face「2024最受欢迎榜单模型」榜单位列中国第一。此前,面壁智能已经演示了高效端侧模型运行在人形机器人的合作案例,百度智能云将与面壁智能共同优化云端协同方案,将端侧大模型能力跟云端大模型能力协同起来,提升端侧响应效率,帮助具身智能机器人完成更加复杂的任务。
“端侧大算力难以解决所有问题”,地瓜机器人开发者生态副总裁胡春旭总结道:“未来的机器人一定是端云一体化的,端侧不会只做纯执行,需要有一定智能化水平,同时,具备大量知识的模型需要通过云的方式介入。”
地瓜机器人是从头部智驾科技公司地平线拆分出来的业务,面向机器人市场打造软硬件通用底座,把地平线自动驾驶的成功路径,在具身智能复制一遍。目前百度智能云也正协同地瓜机器人推动地瓜机器人的端侧算力产品在具身智能赛道、智能硬件赛道的落地。
BV百度风投是国内最早关注人工智能赛道的基金之一,投资方向覆盖AIGC、具身智能、自动驾驶、先进计算、生命科学等领域。
从赛道规模来看,百度风投具身智能投资负责人崔轲迪认为,“具身智能的投资机遇将比肩之前的电动汽车、自动驾驶和智能硬件浪潮”,而定义具身智能赛道的头部企业还为时尚早,目前仍是投资具身智能赛道的合适时机。
此外,轲迪也重点分享了具身基础模型预训练和后训练的发展趋势,认为业界在具身基础模型的进一步投入将是确定性的,当前多技术路线将逐步收敛到基础模型加整机硬件本体的组合。
2024年被业界称之为具身智能发展元年,如何平衡技术和产品落地的理想与现实?今年以来,大部分具身智能厂商都把产品投放进工厂里做验证。比如,人形机器人公司Figure AI就将最新的Figure 02,送进宝马位于斯帕坦堡的工厂。马斯克也把Optimus送进了特斯拉产线搬运电池,并放出“明年投放100台机器人”的豪言。
针对业界应用落地的进展,戴盟机器人联合创始人杜仪湃提出了“具身技能”的概念,认为“具身技能”是通向“具身智能”的前提,“通用性更强的具身智能能力,是对小技能的一个排列组合,包括抓、拿、放、压等操作,首先需要打好小技能的基础,包括合适的选取以及精度的叠加。”目前,戴盟机器人正以新型光学式触觉传感器为核心,围绕光学式触觉攻坚机器人灵巧操作,包括灵巧手及包含触觉的具身智能大模型。
千寻智能是国内拥有AI+机器人全栈技术能力的具身智能公司。“相比于原来的工业机器人,外界对于具身机器人落地要求是更进一步的”,千寻智能联合创始人郑灵茵透露,目前公司的机器人产品已经在宁德时代尝试应用落地,处于POC阶段,未来将“从简单的场景开始落地,随着数据飞轮带来的模型能力进化,具身智能机器人将从工业、物流等场景,逐渐走入千家万户”。
从具身智能产业发展路径来看,智平方科技副总裁邱巍认为“软硬一体化能力非常重要”,需要把大模型应用在相对资源有限的硬件平台上,系统性地优化。据悉,智平方已与国际头部车企签单,正在推进项目POC,计划明年完成百台级小批量交付,逐步上台阶,利用3-4年时间实现万台级机器人的交付工作。
“人形机器人在十年前就有了,当年大家在谈这个话题时,基本都持怀疑态度”,人形机器人场景应用联盟秘书长李进科坦言,“今年对于未来发展趋势产业各界都已达成共识,并且非常坚定”。他同时指出,人形机器人可能是具身最好的落脚点,但不会是唯一的落脚点,未来在各行各业具身智能都会产生变革性的带动作用。今年,在教培和接待等领域,具身智能机器人迎来了一波出货潮,但在非标属性更高、天花板更高、商业价值更广阔的工业等场景,主机厂和场景方还需更紧密地交流协作。
作为全球最大的电子产业科技制造服务商,富士康科技集团正在转型成为智慧制造、智慧电动车和智慧城市的平台解决方案供应商,是具身智能重要的场景应用方。富士康科技集团技术中心副理高鹏在实践中总结,“工业场景对具身智能来说,定制化程度很高,在场景开发方面需要一定时间”,现阶段已协同厂商攻克了产线质检、自动搬运、智能分拣等场景,还需解决打通产线“最后一公里”的问题。
拥有近30年锂电池经验的欣旺达动力,其工业AI大数据负责人任杰鹏同样提及了具身智能在质检场景的应用,“传统的相机定点检测,固定支点无法查清细微缺陷,自主式移动的机器人可以实现多样多面质检”,同时结合云边端,通过云边协同,赋能端侧检测机器人实现提质增效。
对于应用方来说,在核心需要解决的智能化生产问题之外,还存在诸多在探索中的应用场景,在实验室超静音、高温高湿等对员工身体不友好的工作环境,希望可以用具身智能机器人来替代,让员工去做更高附加值的工作;包括NPI产品等保密性资材,如何利用人形机器人、无人物流车、空中运输无人机等进行保密运输,都是正在探索的方向。
从资金的大量涌入到技术的不断突破,具身智能领域展现出了前所未有的活力与潜力。
在压轴的「TechShow」环节,五家明星创企创始团队带来创新路演分享。武大机器人是由刘胜院士领衔的人形机器人高校科创团队,在核心团队方面,汇聚了行业内顶级的专家学者。目前,团队已完成第一代双足人形机器人“天问”和轮式人形机器人“远游”的研发工作,并在核心零部件方面实现了80%的自产自研,包括触觉传感器、压力传感器、机器人灵巧手和仿生关节等。
其中,“天问”机器人在某些核心性能指标上已跃居国内领先地位,例如其膝关节的扭矩高达460N.m,这一强大性能足以支撑机器人完成行走、奔跑乃至跳跃等高难度、高爆发性的动作。据武大机器人的李梦德介绍,下一步“(产品)将在商业服务、工业场景和极端场景实现落地,在医疗场景进行实验”。
众擎机器人是超拟人步态人形机器人的新锐企业,创始人赵同阳为前小鹏旗下机器人团队“鹏行智能”公司的创始人。其余团队来自中国第一批腿足式机器人研究与产业落地团队,以及UC Berkeley、清华、普渡、港中文、北理工等高校的专业人才,从本体核心零部件到具身智能、运控算法均全栈自研。
今年,众擎的产品矩阵已实现多线并行高效研发,从双足、异形到全人形不同型号产品全覆盖。SA 01实现了全球范围内的规模化交付,“凭借全栈自研的技术能力,我们把整机售价降至3.85万元”,深圳众擎机器人科技有限公司合伙人&市场总监姚淇元分享到,“目前已规模化量产,小批量出货中,同类型的机器人,很多售价在10万元左右,甚至更贵。”此外,众擎近期发布的旗舰产品SE 01全尺寸通用人形机器人,实现了全球首次机器人类人步态行走,达成人形产业又一个milestone。
桥介数物是专注运动控制小脑研发的新势力团队,在国内足式机器人运动控制方案的市场中,市场占有率最高。直观来看,在世界人工智能大会(WAIC)上,18家人形机器人中有7家采购了桥介数物的“小脑”方案。
桥介数物首席执行官尚阳星回顾头部主机厂选择合作的核心原因主要在两个方面,其一是“快”,让一个从来没见过的机器人实现行走,最快3天半完成;其二是“好”复杂地形、快速行走、抗干扰性都比较强,鲁棒性高且功能丰富。
大象机器人是轻量级桌面机械臂与人形机器人开发新锐企业。2019 年,大象机器人研制的全球首款轻量型桌面级六轴机械臂myCobot 正式上线,成为全球第一款千元级协作机器人;同期,主打家庭陪伴的仿生机器人Mars Cat、Meta Cat系列也因满足用户需求而取得了不错的市场反馈。去年,大象机器人正式发布万元级售价的水星Mercury人形机器人产品系列,以其半人形17个自由度、全人形19个自由度的特性和丰富的应用领域成为市场焦点。
大象机器人商务总监林帆透露,“市场侧,(公司)在全球范围内有200个左右的渠道合作伙伴,通过产品优势在国际舞台上树立了良好的品牌形象”,从客户群体来看,主要集中在教育科研和工业应用两个方面,教育场景采用开源路线,工业方面今年以在更多工厂逐步实现应用落地。
枢途科技是一家让机器人“下地干活”的具身智能大脑企业,专注多模态具身智能大模型融合机器人场景作业能力,通过自主研发模块化硬件,实现通用复合机器人的商业化落地。为了解决具体场景落地的泛化和适配问题,枢途科技从模型和硬件两个维度出发,自研多模态具身大模型,结合垂直场景Know-how可自动进行任务统筹规划,为企业提供专业化、模块化的通用复合作业机器人。
谈及枢途科技的终极愿景,枢途科技创始人兼总经理卓羽分享到,“枢途希望成为一座桥梁,链接现实生活中缺失劳动力的场景和各种形态的优质机器人硬件”,通过具身智能大脑赋能更多硬件进入更多非标复杂的场景,Make Robots WORK,打造新质生产力。