专栏名称: 商学院
《商学院》杂志由中国社会科学院主管,中国社会科学院工业经济研究所主办,《中国经营报》社有限公司出版。在这里你可以直通全球22家知名商学院校,这是一座开在你身边的《商学院》。
目录
相关文章推荐
51好读  ›  专栏  ›  商学院

投资者说:具身智能投资的机遇与挑战

商学院  · 公众号  ·  · 2025-03-14 13:45

正文

投资者说:具身智能投资的机遇与挑战.jpg

具身智能可以是无人机、机器人、汽车、智能设备,也可以是任何能想象到的具体物理设备。





文|钱丽
ID | BMR2004


将铅变成黄金?这种“炼金术”在核物理学中称之为“嬗变”。在核反应堆或粒子加速器中用中子轰击汞…… 然后,黄金就出现了。如今人工智能正在见证史上最伟大的嬗变之一,那就是大模型对具身智能的助推。


01

关键节点到了吗?


“技术到了一个关键节点,让原本困难的事变得容易了。具身智能机器人实则是大模型落地的一种形式,人们需要借助某种介质将大模型由数字世界引入物理世界,而这正是机器人受到关注的主要原因。”凯联资本董事总经理姚宁波说。


DeepSeek的横空出世在国际人工智能领域掀起了滔天巨浪,人们惊奇地发现,原来大模型不是少数人的游戏,落地应用变得更廉价高效。姚宁波说:“DeepSeek对于具身智能更是具有决定性意义,机器人将不再依赖云端,反应会更快,也更智能。”


姚宁波曾在摩托罗拉、英特尔等公司任职,任职期间推出多款明星级产品及解决方案,包括小米平板2、Ninebot 9号机器人(Segway Robot)等,长期跟踪智能硬件和机器人产业的发展。


人类对机器人的探索从未间断过。2000年,日本本田公司发布仿生机器人ASIMO,这台机器人攻克了动态步行、复杂地形行走等关键技术难题,但当时的ASIMO只是一台能执行指令的机器,并不智能。


“本田是车企,它将机械和电子技术用于制造机器人是有先天优势的,但机器人技术发展了一段时间之后,由于无法突破大规模应用中人的感受或者需求阈值(即指在某个时间段内,为了满足用户需求,所需要达到的最小资源或服务水平),导致机器人技术发展逐渐变慢。”姚宁波说。


2012年前后,机器人技术再次活跃。英特尔开发出RealSense?视觉处理器,与9号机器人等公司展开合作,日本软银也对机器人公司展开投资。这一时期,业界不断探索计算机视觉(CV)在机器人领域的应用,但收效甚微,成本也偏高。几轮尝试后,业界得出的观点是,虽然当时的计算技术、人工智能技术和计算机视觉技术都对机器人有帮助,但依然成本高、收益低,产业投资再次遇冷。


“不可否认的是,ASIMO在一些传感器、机械结构和控制系统上的设计对今天的产业有帮助,但它与今天所要求的智能化完全不在一个纬度上。”姚宁波说。


一项技术能否普及,前提是成本与功能要匹配。 目前具身智能机器人的发展还在初期,尽管宇树科技把一台机器人的价格打到了9.9万元人民币,但依然无法走入家庭场景。在刚刚过去的蛇年春晚上,宇树机器人成功演示了优异的机械结构,但还不具备智能。DeepSeek将大模型装进机器人变成了现实,但还需要进一步的工程探索。


“技术发展是波浪式前进的。当一项新技术出现时,会有一批对创新容忍度极高的早期使用者先行尝试,他们不求完美,只要满足某项功能即可。此后,随着使用人群的扩大,普通消费者会提出更多更高的要求,后续工程能力和研发投资的跟进,会让技术层层突破。”姚宁波说。


02

具身智能的投资机会


具身智能(Embodied Intelligence)是一种高级的机器智能形式,它使机器人能够像人类一样感知和理解环境,并通过自主学习和适应性行为来完成任务。“具身智能可以是无人机、机器人、汽车、智能设备,也可以是任何能想象到的具体物理设备。”姚宁波说。


具身智能分为三大模块。


决策层  这是具身智能的核心,需要类似人类大脑的处理能力,以满足机器人在理解指令、分解任务、规划子任务、识别物体等方面的需求。姚宁波指出,传统机器人在多维度人机交互方面存在难题,而由谷歌DeepMind推出的RT-2、OpenAI推出的GPT等大模型的突破为解决这一问题提供了新思路。这些模型可以充当机器人的“大脑”,利用其强大的语言理解和生成能力,与人类进行多维度交互,能更好地理解指令和意图,生成恰当的响应和行为。DeepSeek第一次将性能优异的大模型能力带到了端侧,代码开源更是让机器人可以根据用途场景等完成定制,为机器人大脑商业化前进了一大步。


感知层 获取和处理环境信息,为智能体的决策和行为提供依据。这可以通过两种方式实现:一是全感知,即构建一个包含操作环境知识的大规模数据库;二是具身交互感知,即通过智能体与环境的实时交互获取感知反馈,并利用物理定律和数据驱动的方法构建准确的环境表征。


控制层 根据感知信息和决策指令,协调机器人各部件的运动,实现智能化的行为控制。多传感器融合是控制层的重要方面,通过综合利用多种传感器信息,提高机器人对环境的感知和理解能力,实现更具鲁棒性和适应性的控制。


姚宁波说:“机器人大脑除了需要大模型,还需要两个关键元素——芯片以及传感器。芯片算力决定大脑处理信息的速度,传感器获取物理世界数据,包括视觉、温度、重力、压力等。中国的短板在核心芯片和传感器上,但在机器人的机械结构、应用场景和市场需求方面具有一定的优势。在做投资时,市场对这些技术的认可程度是我最关注的重点。”


姚宁波还指出,机器人产业链长且复杂,需要上下游企业高效合作。上游核心零部件包括控制器、伺服电机、减速器,这被视为机器人的三大核心零部件。中游本体制造有机器人的机械传动系统,也是支撑基础和执行机构。下游应用包括为终端客户提供应用解决方案、系统集成以及行业应用。


盛景嘉成管理合伙人王湘云说:“目前具身智能机器人领域出现不少头部的整机公司,但我们认为,整机形态会因不同场景进行集成和重构,最关键的还是核心部件的构建能力,因为非核心部件可以通过供应链协同的方式获得。”


王湘云认为, 具身智能领域的核心能力是世界模型,它帮助机器人建立推理能力,从而更好地理解世界。 接下来是本体能力,包括控制系统和传感器。移动能力和操作能力是机器人脚和手的能力,基于中国在智能驾驶领域的技术积淀,机器人的移动能力发展得相对较好,但与手有关的操作能力目前还有待进一步发展。


“操作能力会催生新型传感器的机会。触觉传感器在工业场景下的作用不大,所以很少使用,但在人类多样化的生活环境中,触觉传感器在帮助机器人有效执行任务时发挥关键作用。”王湘云说,“有时机器人的操作能力并非依靠视觉传感器,触觉传感器提供的压力、温度、表面材质等都能帮助机器人完成任务。未来,机器人的每个手指都可能会装上触觉传感器,电子皮肤让机器人拥有全身的触觉感知,这些是新型传感器发挥作用的地方。”


03

数据将是下一个“金矿”


王湘云说:“大语言模型是优质海量数据、充裕的资金与尺度定律三者的成功结合。ChatGPT的智能交互能力已经越过图灵测试的临界点,它将作为一个智能底座,赋能给智能机器人。在数字世界,模型的进化能力至关重要。”


但从数字世界进入物理世界、理解物理世界,还需要全新的数据类型,比如3D结构信息、4D时空信息、生物信息,以及压力、温度、重力、视觉等信息。姚宁波认为,这些全新的数据类型将来自传感器,其中必将诞生全新的公司。


目前大语言模型采用的数据多来自既有的语言文字信息,已经出版的书籍、发表的科研论文以及互联网上积累的信息,经过数据清洗、整理和训练,成就了当下的大模型。图片、视频大模型也是来自既有的图片和视频信息,但都属于二维信息。王湘云说:“进入物理空间时,最欠缺的还是来自现实世界的三维数据。高质量的数据才能训练出高质量模型,目前大家都在思考如何突破数据局限。”


数据的获取与处理,王湘云认为,有些是技术问题,有些是工程问题。“ 数据在很大程度上是一个工程问题,这个问题恰好制约了模型的发展。 有企业借鉴特斯拉自动驾驶真机数据训练模式,采集真机数据或通过真人操作来训练机器人,但海量3D数据的生成主要还是受到成本的制约。”


为高效、低成本地获取3D数据,有人采用仿真数据训练AI,但仿真与现实之间存在的误差将传导给AI。为达到更好的质量和精度,也有人将仿真与AI相结合。“在全新数据领域,人们都在尝试与探索。我们观察发现,在数据领域还会有相应的投资机会。”王湘云说。


04

投资“卖铲子的人”还是“挖金矿的人”


王湘云说,产业发展分周期。初期,并非是“挖金矿的人”先赚到钱,当产业基础设施还不完备时,往往是提供基础设施的厂商先赚到第一桶金。因而“卖铲子的人”往往比挖金矿的先赚到钱。当前为大模型提供芯片算力和为数据中心提供能源的厂商先赚到了钱。







请到「今天看啥」查看全文