专栏名称: 机器人大讲堂
机器人大讲堂是立德共创服务平台旗下引领行业发展的新媒体平台,已举办多种形式系列活动近百场,行业媒体矩阵垂直粉丝20万余人;立德研究院承接智库咨询和科研项目;立德孵化基于顶尖专家优势形成早期高技术成果产业化。
目录
相关文章推荐
深圳发布  ·  本轮降温过后,会出现回南天吗? ·  2 天前  
51好读  ›  专栏  ›  机器人大讲堂

数据集标准范式出现,具身智能有望迎来快速突破

机器人大讲堂  · 公众号  ·  · 2024-12-30 12:04

正文

自1950年由艾伦·图灵提出具身智能概念以来,经过70多年的探索实践,具身智能已经逐步走近人类生产生活的方方面面。作为具身智能的重要载体,具身智能机器人赛道今年异常火爆,受到学术、产业、资本以及各国政府的广泛关注与支持。

正如ChatGPT需要海量文本数据来训练一样,高质量、多样化数据集是实现具身智能快速突破和具身机器人快速落地应用的关键。优质的数据集能够加速具身智能模型的训练与部署,帮助其控制各种类型的机器人遵循不同的指令,对复杂任务进行基本推理,并有效地完成这些任务。

但不同于大语言模型可以使用互联网海量信息作为训练数据,机器人所用的具身智能模型并无现成数据可供直接使用。一套符合通用标准、由模型验证有效且具备通用性的数据集,已成为当前具身智能行业最大的刚需。

2024年12月27日,国家地方共建具身智能机器人创新中心(以下简称“创新中心”)与北京大学计算机学院联合推出了一个大规模多构型具身智能数据集和Benchmark——RoboMIND, 基于成型标准采集,经多个模型训练验证有效,支持多本体多任务并具备通用性,充分解决了目前全球开源数据集,量大但数据质量参差不齐、通用性复用性差、部分数据实测效果不理想等问题,有效满足复杂场景具身智能高效率和针对性的训练。

适用于多平台、多场景、多技能的数据集价值更大

当前具身智能本体形态多种多样,应用场景千差万别,对于具身智能训练数据的需求也更为多元。目前业内仍有部分数据集主要聚焦在特定机器人、特定场景和特定技能等方面,在整体通用性上有待提升。

创新中心发布的RoboMind数据集,采用了包括含单臂机器人、双臂机器人、人形机器人,手臂末端使用夹爪或者灵巧手等多种形态的机器人本体进行数据采集,包含了涉及279项不同的任务多类场景,涵盖了高达61种不同的物体,覆盖了家居、厨房、工厂、办公、零售等大部分生活服务场景,对科研突破和场景应用均十分友好。创新中心持续采集长程复杂任务,目前已经积累数十万条高质量数据,以真机数据为主,配以仿真遥操作数据。在数据质量与使用价值上,一条数据等同于目前现有数据集的多条存量数据。创新中心计划首批开源10万条,后续逐步释放,涵盖更多机器人本体和场景任务。

Robomind数据集多形态机器人,多场景验证

据谷歌Open X-Embodiment公开资料显示,其数据集汇集了来自各个机构的数据,整合了70余个独立数据集,合计百万量级数据片段,涵盖了从单臂机器人到双臂机器人,再到四足机器人等多种不同形态的机器人。值得一提的是,虽然OpenX发布数据集高达百万条量级,但是大小只有3TB左右,且数据质量和一致性差,真正可用的有效数据不足一半。此外,其实测效果较差,在其官方的小参数量模型(RT-1 35M)上,甚至不如原版RT-1的13万条数据训练的效果。创新中心本次发布的数据集大小是20TB,并且保证了所有数据的统一可用,在benchmark测试中大小模型已跑通了数据集中涵盖的所有机器人本体。


Open X-Embodiment 数据集的样本

多款模型验证有效,具身智能数据集迈入下一个阶段


当前市场上已有多家机构开源具身智能数据集,但由于是多个数据集整合,存在一定数据格式不统一,数据质量参差不齐,需要进行大量的二次调试、整合,难以有效满足复杂场景具身智能高效率和针对性的训练等问题,并且基于开源的数据集测试训练效果也不尽相同。经过验证后“能用”、“好用”的高质量具身智能数据集成为了行业关注的重点,也是许多高校、科研机构和企业重点攻克的难题。


创新中心发布的RoboMIND,已在主流单任务模仿学习模型(如ACT、BAKU)和具身多模态大模型(如OpenVLA、RDT-1B)进行了评测,经多本体和多任务的系统评测,证明RoboMIND数据集有效提升了模仿学习模型在现实场景下任务的成功率,率先进入了数据集使用的下一个阶段。

RoboMIND数据集实验验证

行业引领者,创新中心打造国内首个具身智能数据采集标准

具身智能数据采集需要投入大量时间和资源进行机器人操作实践或者仿真模拟,来收集视觉、触觉、力觉、运动轨迹以及机器人本体状态等多源异构数据。目前业内发布的数据集标准不一,存在数据质量参差不齐、数据通用性复用性差、部分数据实测效果不理想等问题。

今年11月,作为行业的引领者,国家地方共建具身智能机器人创新中心牵头立项《人工智能 具身智能 数据采集规范》工信部行业标准,这是国内第一个具身智能数据集的行业标准,规范了具身智能数据集采集的格式,使不同公司采集的数据可以互相共享开源,能够加速模型“涌现”。创新中心未来还将设计一系列数据集标准,为模型泛化保驾护航。

在12月的具身智能创新发展研讨会上,创新中心正式发布了《具身智能标准化研究报告》、《具身智能数据集及评测研究报告》(即RoboMIND)两项重磅报告,为行业的标准化与数据集建设提供指引。具身智能数据集采集标准的建立将进一步明确具身智能数据要求及质量等,从而加速具身智能行业的良性发展。

作为训练具身智能大模型的重要原料,数据集采集是否符合标准、在训练上是否“能用”、“好用”,是否能更有效支持模型泛化,已经成为机器人变“聪明”的关键。本次创新中心数据集的开放和benchmark的发布,在标准化、有效性和通用性方面均给出了令人瞩目的突破性结果,并为此后行业的高质量数据集采集打下了坚实基础。具身智能行业有望以此为开端,在2025年实现更多的落地应用。


如需咨询企业合作事宜,欢迎联系堂博士(13810423387,手机与微信同号)进行对接。


----------------END----------------


工业机器人企业

埃斯顿自动化 | 埃夫特机器人 | 节卡机器人 | 珞石机器人 | 法奥机器人 | 非夕科技 | CGXi长广溪智造 | 大族机器人 | 越疆机器人 | 优艾智合机器人 | 阿童木机器人 | 盈连科技 | 松灵机器人

服务与特种机器人企业

亿嘉和 | 晶品特装 | 九号机器人 | 普渡机器人 | 机器姬 | 猎户星空 | 七腾机器人

医疗机器人企业

元化智能 | 天智航 | 思哲睿智能医疗 | 精锋医疗 | 佗道医疗 | 真易达 | 术锐®机器人 | 罗森博特 | 磅客策 | 柏惠维康 | 迪视医疗

人形机器人企业

优必选科技 | 宇树 | 达闼机器人 | 云深处 | 理工华汇 | 傅利叶智能 | 逐际动力 | 乐聚机器人 | 星动纪元 | 天链机器人 | 中科深谷 | 大象机器人 | 伟景机器人 | 众擎机器人 | 开普勒人形机器人 | 数字华夏 | 帕西尼感知

具身智能企业

跨维智能 | 银河通用 | 千寻智能 | 方舟无限 | 微亿智造 | 睿尔曼智能 | 灵心巧手

核心零部件企业

绿的谐波 | 因时机器人 | 脉塔智能 | 锐驰智光 | 地平线 | 本末科技 | NOKOV度量科技 | 青瞳视觉 | 因克斯 | 蓝点触控 | 福德机器人 | 巨蟹智能驱动 | 鑫精诚传感器 | 思岚科技 | 宇立仪器 | 极亚精机 | 神源生







请到「今天看啥」查看全文