2024 年,蓬勃发展的人工智能正在赛道细分的关键市场周期,具身智能无疑是最受关注的细分领域之一。随着基础模型的突破,通用智能机器人(具身智能)被看作大模型落地的重要方向。在近日举办的世界机器人大会上,来自国内外机器人研发企业的数十款人形机器人共同亮相,机器人产品展台摩肩接踵,人流如梭。具身智能作为与人交互的友好体验终端,承载着大众对人工智能产业整体的理解与关注。
海内外国际巨头正加速发展具身智能产业。英伟达 CEO 黄仁勋曾多次表示,具身智能是人工智能下一个浪潮,并为开发、训练和构建下一代人形机器人推出了整套产品。特斯拉的擎天柱自发布后便保持高速迭代,马斯克预计全球未来将有 200 亿台的人形机器人;3C 智能硬件王者苹果也投身具身智能研发大军,积极探索桌上机器人。据 Markets and Markets 预测,2023 年全球具身智能市场规模为 18 亿美元,预计 2028 年将达到 138 亿美元。
在巨大市场空间的吸引下,不足两年时间,海内外聚集了多家具身智能相关机器人公司。本体层面,特斯拉、小米等车厂开卷具身智能产品,Figure、智元机器人、银河通用、加速进化、星尘智能、逐际动力等公司崭露头角;模型层面,英伟达、谷歌、OpenAI 纷纷推出机器人大模型,小雨智造(2023 年 1 月)、千诀科技(2023 年 6 月)、星动纪元(2023 年 8 月)、星海图(2023 年 9 月)等公司接连成立,一个新的产业生态蓄势待发。
积势已成,这一百亿美元规模行业的前景和卡点在哪儿?新一代的具身智能通过自我学习掌握各种技能并执行现实生活中通用任务的机器人,其优势在于任务的泛化性。它需要大量高质量数据来训练和优化算法,以达到智能的通用性;其商业化更是离不开真实的场景环境,需要通过大量试验和场景训练提高具身智能的可靠性和精准性。
数据和场景成为具身智能发展的制约因素,通过大规模高质量数据问题提高模型智能化程度,用真实场景带动产品和市场的飞轮转起来,是具身智能产业获得长足发展和商业化落地的关键所在。
在此背景下,8 月 27 日下午,北电数智召开以“星火·点亮具身智能”为主题的「2024 具身智能创新论坛」,邀请机器人本体公司、具身智能模型开发公司以及仿真训练场等领域代表,共同探讨具身智能破局的有效路径,论坛现场展开深度对话。
数据是大模型智能化和泛化能力的来源。然而,具身智能行业玩家正面临数据不足、数据质量有限、数据种类较少,且数据采集成本高等问题。
具身智能需要的是基于硬件的数据,现实世界中积累的此类数据很少
。这些数据不像大语言模型、视觉模型一样可以从互联网中获得海量文本、视频信息,需要针对不同功能、环境、场景一一采集。其发展除了需要机器人自身运动数据,还需要和现实环境相结合的数据,如视觉、听觉、触觉信息、力学反馈等数据。
即使有针对性地去进行数据采集,
因现实世界的不确定性和无穷性,数据采集难度非常大,成本也很高
。
原因有三。一是数据采集难以穷尽
,真实世界场景各式各样,难以在不同地形地貌、社会工作环境中全面采集数据。而具身智能对场景的多样性要求很高,这直接影响着机器人大模型的泛化能力。
二是采集的数据难以涵盖物理世界的所有规律
,具身智能数据需要捕捉在多样且不可预测环境中的物理互动,但物理世界的现象和规则非常复杂,数据很难完全诠释这些物理知识,例如,数据采集时很难捕捉机器人在复杂力学环境中所发生的变化和受到的影响因素,通过数据形式记录下来的难度更高。
三是数据质量要求高
。数据可能存在噪音、不完整、标注不准确、时空不对齐等问题。例如,由于不同传感器采集数据的频率、响应时间和精度存在差异,数据间的时空对齐存在困难,如果力学传感器和视觉传感器在数据采集时间上出现偏差,将会直接影响数据的准确性和可用性。低质量数据难以有效为机器人大模型补给,反而会输入错误信息。
数据采集的成本也直接限制着具身智能产业的发展
。不久前,有媒体报道特斯拉为训练人形机器人高薪招聘数据采集员,走路一小时时薪就有 344 元。在本次论坛上,智元机器人合伙人兼营销服务副总裁姜青松也分享道,
“自从今年开始积累数据,花钱如流水。
现在的数据一条就几块钱,一个工人一天只能采集 500-600 条数据,如果是复杂工作的话,采集的数据只会更低。每一条数据的成本都很大。”甚至随着大模型发展,所需训练数据增加,训练带来的算力成本支出也迅速上涨。
数据是所有具身智能产品共同面临的问题,没有足够的高质量数据,具身智能很难真正理解和适应复杂多变的现实世界。
2024 年下半年,具身智能行业已经从卷本体到卷大脑,到开始卷场景。在世界机器人大会上,多家具身智能厂商都展示了自己的场景尝试,如智能搬运、智能质检、螺丝拧紧、零件安装、水果采摘等。
具身智能进家庭是必然趋势,但在梦想实现之前,企业要如何先活下来。
“机器人进家庭还需要至少 5-8 年时间,这 5-8 年产业要怎么活?
哪些产业愿意真正买单,是我最关心的事情。”姜青松感慨道。
在当下资本市场环境下,资本耐心有限,企业很难靠融资做出一个完美产品再投放市场,先沿途下蛋再迭代成为一个更切实可行的路径。企业可以在产业落地场景中积累真实环境数据,针对能有效商业化落地的场景做大模型打磨和能力的提升,将具身智能产品先用起来。
北京通用人工智能研究院联合创新中心副主任孙庆恺则认为:“
人形机器人企业寻找找准自己的定位,具有行业属性,否则商业化路径很难走通。
”
不同场景需要的数据类型不用,对数据也有较多要求。在无法触达场景和需求情况下,人形机器人很难进行有针对性的训练,也就难以满足客户需求。以行业人士心中必须攻克的山头工业制造领域为例,工业领域对机器人的操作的可靠性、鲁棒性、精准性要求都很高。大语言模型出现错误,其结果是输出毫无逻辑地或完全错误的信息。工业领域机器人一旦出错,落地到执行层面,会带来工业生产流程和节拍的混乱,为工业生产带来不良效应。而生产质量问题、产线停摆等错误会给工厂带来难以估量的损失。
真实有效的场景,既能减少数据空间无穷的问题,让研发方向更聚焦,也能加速企业商业化落地步伐,让产品和市场的飞轮转起来。在大量初创企业很难找到有商业化落地需求,没有细分领域的标杆案例的当下,精准定位场景就成为行业最关心的事。
构建具身智能训练场,为行业玩家提供真实且能落地的真实场景,加速具身智能模型的数据采集、开发和训练。是当前发展阶段中可行的解决方案。
目前业内的具身智能机器人数据主要有三大来源,基于真实场景的数据采集,基于虚拟仿真平台的数据生成,还有业内已开源的数据集。除了开源数据集,企业大多要根据业务发展需求自行收集数据,而无论是真实场景的数据还是虚拟仿真平台的数据,
一个能提供数据采集服务和模拟真实世界并支持物理交互训练环境的训练场都非常重要
。
随着场景数据规模越来越大,越来越多的机器人模型向着通用化、大模型化发展,需要使用大量训练算力,因此
训练场和智算中心对于具身智能大模型的发展会变得不可或缺
。
高质量场景数据、先进算法模型、训练平台及高质量算力的持续支持,构成了具身智能模型迭代发展的“铁三角”。
北电数智从全栈一体化的位面,看到了助力具身智能产业的生态价值。
具身智能在收集数据时对灵敏度要求很高,在数据获取和传输过程中,数据延迟、数据传输带宽都将影响数据质量。
数据延迟会带来不同模态数据之间的时间对齐误差,数据传输带宽不足则容易带来延迟,让数据变得更混乱。
首先,“具身智能数据开发平台”会提供企业收集数据的训练场
,将提供多种形式的数据采集服务,通过动作捕捉设备、数据采集机器人和 VR 模仿学习设备等方式,帮助企业收集数据,并减少环境对数据精度的影响,保证数据的精准获取。
其次, “具身智能数据开发平台” 会处理数据,
通过提供数据处理、时序对标、数据标注等服务,帮助数据和模型最终部署到训练场,让数据和模型最终在模拟仿真平台运行起来。
最后,“具身智能数据开发平台”还提供了模型训练平台的工具链,打通从采集到训练的全流程工作
,推进多模态具身智能大模型等关键技术的研究开发。
对于另一端的场景,部分企业不愿意分享如生产环境等数据,需求方和具身智能产品提供方之间存在一条鸿沟,在没有信任基础上难以触达和跨越。
北电数智将利用在工业、医疗、物流仓储等行业的场景积累和红湖可信数据空间产品,充分建立数据信任,引领数据开放的可能。优先链接到重要且能近期见效的场景,把场景放到训练场上
,让行业里的优秀伙伴们能找到自己发挥的空间,通过技术演示和实证实验加速技术落地。
通过导入真实产线和场景数据,北电数智构建了更精准且更具物理真实的仿真环境,生成更精准的仿真数据进行测试,满足多种数据的要求;通过覆盖行走、抓取等通用场景,和行业产线场景,针对关键技术卡点进行工件开发,如抓取不透明物体的抓取,满足多种训练场景;通过完备的强化学习、模仿学习算法库,完备的仿真和真实训练环境,支持不同训练方式及路线组合,加快人形机器人落地步伐,让具身智能机器人能够快速落地实际的应用和案例,真正走到生产、生活中去。
此次论坛,北电数智分别与头部机器人企业签约,联合发布
机器人联合实验室
,是北电数智星火实验室首个面向机器人行业的实践项目,意味着北电数智星火实验室正式上线,也意味着北电数智的“星火智算 +”效应拉开帷幕。
如今,大模型正加速在各行各业落地,且
不同产业的卡点和痛点各有不同
。在具身智能这个重要场景,卡点是数据和场景,北电数智便与业内优秀的合作伙伴打造训练场,着力打通和链接整个产业链,解决数据获取和场景赋能问题。
而对于政务、医疗、文化、教育、制造等国计民生相关行业,
北点数智根据行业个性提供了不同的服务
。以政务场景为例,政府对数据安全敏感,且对模型的幻觉检测和推理能力有较高要求,北电数智提供基于国产芯片的底层算力,加强了可信、可控的数据处理,并提供基于场景痛点的解决方案。
在工业场景,
具备行业 knowhow 是前提
,需要了解用户的实际生产流程,针对工业生产过程的实际痛点提供解决方案,切实提供能帮助用户增产、降本的服务至关重要,如提供能智能排产、故障预测、生产流程优化实际问题的可靠、稳定的工业大模型。
而在文化场景,
北电数智则是切入商业本质
,依据文旅、文创、文博等不同的商业用途,提供不同的功能和模式,加强知识产权保护和赋能,提高文化行业的周边创意能力等。
这一切服务能实现的基础,是北电数智在底层的技术实力和全栈的产品的思路。
北电数智打造了星火智算品牌,涵盖算力、算法、数据空间产品,通过“星火智算 +”,赋能各行各业不同痛点的解决
。
北电数智拥有全栈 AI 服务能力。在算力层面,北电数智着力推动国产混元异构算力的发展,提高国产芯片的算力性能,“
前进·AI 异构平台
”,高效完成算力的分配和调用,为用户提供了全国产、安全、低成本的算力。“
宝塔•模型适配平台
”,可以实现向下适配硬件,使芯片与大模型广泛解耦和适配,让大模型“自如、流畅”地运行在不同 AI 芯片上,让模型更快落地。算法层面,北电数智拥有自己的底座模型和垂类模型,可以为企业提供针对细分行业痛点的解决方案,用户可以直接采用北电数智的大模型,也可以通过微调定制出匹配自身业务需求的垂类模型。在数据层面,北电数智提供了“
红湖·可信空间
”,基于安全可控的数据环境,提供多层次解决方案,解决数据供不出、流不动、用不好、风险大等问题。
北电数智正加速“
星火智算 +
”的推进进程,希望以国企身位和可信背景,更好打通数据和用户需求之间的卡点,找到行业的真实需求,促进数据要素流动,推动大模型真实落地产业,加速各行各业培育和释放新质生产力,激发数字经济的无限潜能,最终将建设数字中国的蓝图变为现实。