专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

逐际动力张力：人形机器人应该代替人类，而不是代替工具 | 中国AIGC产业峰会

计算机视觉工坊 · 公众号 · · 2024-05-29 09:23

正文

点击下方卡片，关注「计算机视觉工坊」公众号
选择星标，干货第一时间送达

转自：量子位 | 编辑：计算机视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

人人都知大模型时代具身智能大有可为。

但这座连接起大模型和现实物理世界的桥梁，究竟应该如何搭建？

逐际动力联合创始人兼首席运营官张力，在中国AIGC产业峰会上给出思考：

AI代替人去决策，人形机器人代替人去劳动。

本质上，人形机器人应该代替人类，而不是代替工具。未来人形机器人会和iPhone一样，成为一个硬件载体，只要装上对应的APP，它就能替人干活。

为了更完整体现张力的思考，在不改变原意的基础上，量子位对演讲内容进行了编辑整理，希望能给你带来更多启发。

中国AIGC产业峰会是由量子位主办的行业峰会，20位产业代表与会讨论。线下参会观众近千人，线上直播观众300万，获得了主流媒体的广泛关注与报道。

话题要点

人形机器人应该替代人，而不是替代工具。
人形机器人操作能力受限，主要是因为AI不能完全根据多模态场景形成自己的行为。
如何利用多模态大模型生成机器人自主的运动和控制，是产业界和学术界都在追赶和研究的部分。
未来人形机器人像iPhone+APP一样，买一硬件装上APP就能替你劳动。
AI代替人去决策，人形机器人代替人去劳动。
未来每家都有一个人形机器人，就像现在的汽车一样。

以下为张力演讲全文：

机器人做成人形是最通用的

谢谢主持人，也感谢量子位的邀请，非常高兴有这个机会再次在量子位舞台上介绍具身智能机器人。其实具身智能机器人的发展与通用人工智能（AGI）有很大关系，并且也推动了人形机器人的突破。

大家可以看到，在今天AI已经可以代替人去思考、去决策，但是人形机器人还不能代替人去劳动，为什么？

当前来看，人形机器人的硬件稳定性、大脑的决策能力以及小脑的运动控制能力与落地应用还有不少差距，这恰恰是为什么今天看到很多具身智能机器人公司不断往前奔跑。

未来来讲，我们可以看到更多人形机器人的应用前景，很多人会问为什么人形机器人是未来？非常简单的道理，机器人做成人形是最通用、最泛化的，因为我们物理世界是为了人类设计的。

与其把所有东西变成各种各样的机器人，还不如做成人形机器人代替人操作这些设备。在技术变革里面我们看到未来通过人工智能带来的泛化性、通用性，未来人形机器人也会变成平台化的应用，像今天iPhone+APP一样。未来买一个人形机器人的本体，装上炒菜的APP或者做家务的APP，机器人可以代替你完成这个劳动。

今天我们可以看到市场上已经有很多人形机器人，尤其不久前，Figure机器人非常火——作为第一个完成了机器人跟大模型跟OpenAI打通的案例，基于大模型，实现自主决策、自主操作，达到人所希望的效果。

对于未来，马斯克讲过，未来人形机器人会像新能源车一样，一家一户有一个新能源车，一家一户有一个人形机器人。

今天中国汽车保有量2.8亿，每年销售量三千万辆，这就是未来人形机器人的市场，又一个庞大的万亿的市场。人形机器人的应用场景非常多，像今天在人形机器人泛化能力有限情况下，可以在工业巡检等特殊场景先试行，未来会应用到物流、配送、家庭服务等更多的场景。但是确实，还是非常需要一些时间发展迭代。

机器人运动能力最重要

逐际动力是一家非常年轻的公司，在2022年年中正式运营起来，公司聚焦在通用人形机器人研发制造。来自科学家创业，也有非常顶尖的研发、产品和工程团队，80%是研发人员，很多也来自985、211和海外非常优秀的学校。整个团队在过去一年半时间快速推出几款产品、技术，也得到资本的青睐和新闻媒体的关注。

逐际动力在成立到今天为止有几个最关键的节点，第一是2022年9月推出四轮足机器人W1，第二在2023年12月份，也是在公司成立一年半左右的时间对外正式公布人形机器人CL-1基于实时地形感知上楼梯的测试视频，运动控制能力方面非常强。

这里面讲讲关键技术和AGI和AIGC的关系，人形机器人本质来讲，就是一个类似或者超越人的运动能力、计算能力和感知能力的机电系统。

运动能力是最重要的，机器人不运动就是一个Chatbox。在运动能力里面，我们分成移动能力和操作能力，移动能力能达到的效果要像人类一样，去到人能去的地方，操作能力能达到的最佳效果是做人能做的操作的事情，比如抓取任何人能抓到的东西。

人形机器人就是由很多关节组成的机器人的本体，每一个关节由电机、减速器、驱动器组成的动力单元，机器人的关节通过运动控制算法协调统一，实现运动控制。

如果机器人执行的是事先规划好的运动，这就是传统的技术，是已经存在了几十年的自动化机械臂。但是如果它需要跟外界产生更多的交互，这就是今天所说的新的技术，在跟外界产生更多交互的时候，大家可以看到，包括对环境的认知、感知，物体的检测，甚至于接触，通过触觉反映的东西体现出来的，在这里面有一个共识。

AI代替人去做决策，人形机器人代替人去劳动的，机器人核心能力是运动能力。

运动控制是非常传统的技术，而基于环境、感知反馈所形成的运动控制是技术未来发展的关键，感知的东西越复杂，挑战越大。人工智能不直接帮助人形机器人去运动，而是通过对环境的感知提升运动的效果。所以在这里面，我们可以看到AGI对机器人的影响非常大。

在不断研发迭代产品的过程中，逐际动力形成了通过模仿学习、深度强化学习以及基于感知的运动控制等关键的新技术，推出了人形机器人CL-1、双足机器人P1，以及四轮足机器人W1。

抓住落地应用要靠扩大技术边界

人形机器人非常有意思的一点，从今天慢慢看向未来，具身智能机器人首先要有主动感知环境的能力，通过基于感知的运动控制算法对非结构化地形实时了解，实现实时的运动控制，像人类一样地运动。

同时硬件方面，人形机器人也在经历关节的不断迭代，今天大家所看到的机器人用到的关节，在未来真正实现to C端机器人应用的时候，能力是今天的3-5倍。在不断迭代过程中，软件和硬件之间相互的耦合非常重要。

在这里给大家看一个视频，上楼梯对于人类来讲非常简单，但对于人形机器人来讲非常复杂，机器人上楼梯像婴儿一样一步一找齐，这里面颇具挑战的是运动控制算法。通过不断迭代，我们在去年12月实现了人形机器人动态上楼梯，最近更进一步实现了像正常人一样一步一阶上楼梯，还跑起步来。

同时，人形机器人今天还有很多操作能力上的限制，通用人工智能还不能够完全将我们所看到的多模态的场景形成机器人自己的行为，在这个过程中，如何通过多模态大模型使人形机器人自主地运动，通过神经网络、自然语言等技术实现人形机器人最终的自主移动操作，这个部分目前来讲是产业当中最难的事情，产业和学术界都在往前追赶和研究。

今年初我们发布了人形机器人遥操作视频，更多的是为机器人训练采集更多的数据。

另外一个我们有两足机器人P1的产品，这是一段非常有意思的视频，它第一次去一座山里，走在各种各样的地形上，但不会摔倒，这是通过强化学习算法实现的运动控制。今天我们在这个小的双足机器人上实现，后面逐步延伸到全尺寸人形机器人的双足控制上，最终实现像人类一样在任何非结构化地形上，哪怕第一次去，各种各样的地形、干扰对它都不会造成影响，甚至于超过人类的平衡的能力，这是今天可以通过AI算法不断训练出来的。

另外我们还有一个四轮足机器人W1，特色是轮足的形态，具备了点足的特点，同时兼具了轮子的优势——速度快、负载高且效率高。应用场景里有独特的优势，包括保持背部平衡上下楼梯等，都已经达到了今天在机器人控制领域里面非常好的效果。

很多人关心未来人形机器人商业化是什么样子的，跟AI是什么关系？

以前大家定义一款产品的时候是聚焦在技术边界内部，也就是按照客户的需求来定义方的、圆的或者三角的产品。而在今天，具身智能的应用场景是非常大的未来的应用场景，大家可以想像到不管to B也好，to C也好，今天技术边界没有那么大，但是我们在不断扩大这个边界。过程中，如何通过沿途下蛋，不断把成熟起来的技术和产品率先实现商业化，比如先形成自主的移动能力，然后是移动操作能力，这是关键。这个过程中，机器人跟AGI、AIGC打通，加强场景的认知、理解，实现任务的分解，更好完成规划决策，这些都非常重要。

未来，人形机器人有非常多的应用场景，早期在危险场景、中期在高端服务、制造业，未来是走进千家万户，为每个家庭服务，大脑、小脑、本体有很多技术在不断地实现和完成，这里面会有大量行业大模型垂直应用的机会。

希望之后有更多机会和在座的AI产业界朋友认识，开展具身智能领域里更多合作、实现产业的互通，谢谢大家。

本文仅做学术分享，如有侵权，请联系删文。

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉学习知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括：星球视频课程近20门（价值超6000）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

3D视觉课程官网：www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

3D视觉相关硬件

图片	说明	名称
	硬件+源码+视频教程	精迅V1(科研级)）单目/双目3D结构光扫描仪
	硬件+源码+视频教程	深迅V13D线结构光三维扫描仪
	硬件+源码+视频教程	御风250无人机(基于PX4)
	硬件+源码	工坊智能ROS小车
	配套标定源码	高精度标定板(玻璃or大理石)
添加微信:cv3d007或者QYong2014 咨询更多

欢迎点个在看，你最好看！