温故知新 | 初代网红机器狗MAX，怎么“人里人气”了？

中国计算机学会 · 公众号 · · 2024-09-07 18:53

正文

导读：初代网红机器狗MAX，是腾讯自研的多模态四足机器人，轮足结合的设计，不仅让它成为行走大师，向真狗学艺、奔跑跳跃、匍匐跨栏等，惟妙惟肖的行为，更是赚足眼球。随着多模态大模型与具身智能的深度融合，MAX的灵活性和自然性不但逐渐提升，甚至还能具备一定的情感理解，更通“人性”。让我们一起跟着张正友老师的本期分享，一探MAX“进化”的秘笈。

生成式AI控制：灵性觉醒的钥匙

在演讲中，张正友老师强调，未来的机器人必须具备自主学习的能力，以应对复杂多变的环境。他提出了一种全新的生成式AI控制框架，通过模仿学习与强化学习，让MAX在无需人为编程的情况下，自动学习并优化控制策略。这种生成式的神经网络控制，让MAX的行为看起来充满灵性，仿佛拥有了真正的智能。

SLAP范式：自主控制的革命性蓝图

面对传统控制范式在自主性方面的局限，张正友老师提出了创新的SLAP范式——感知（Sense）、学习（Learn）、行动（Action）、规划（Planning）。这一范式打破了传统感知-规划-行动的线性流程，实现了感知与行动的紧密融合，让机器人在面对突发情况时能够迅速反应，实现真正的自主控制。

迈向AGI：多模态融合的智能飞跃

展望未来，张正友老师预言，从文本到多模态的跨越，将是AI通往通用智能（AGI）的必经之路。他构想了多模态大模型与具身智能的深度融合，让机器人能够全方位感知世界，从视觉、听觉到触觉，实现深度环境认知与交互。未来，AI将不再是被动的响应者，而是主动探索、学习的智能伙伴，可以深度融入人类生活的每一个角落。

NEWS

想看更多内容？

下载Link APP，精彩内容随心看

精彩片段

我们来看一下，机器人的智能和人类的智能有什么区别，人类的智能，是诺贝尔奖获得者Daniel Kahneman他提出来的，他的一本书《Thinking, Fast and Slow》里面，他把人的智能分成两个系统，第一个系统叫SYSTEM 1，比较直接，这个直觉很快的切入，下意识的去思考的一个unconscious。第二个，这种叫Rational thinking，就是已知的逻辑推理的更高层的Thinking，就比较慢，95%的时间，我们人都是在系统1里面去运作的，只是到比较难的时候，它会上升到第二个system。那么我们看看我提出的SLAP，这个范式是对应什么呢？就是感知和行动，反应式自主对应System 1，一个直觉，叫percepts。上面的Planning的部分是为了实现无意识的自主，对应SYSTEM 2。有了这样子的理解，就会帮助我们今天要讲的这个生成式的控制系统。

我们分层的的设计其实跟人脑也是相关的，和人的智力相关。第二个，我们人脑也有一个小脑，小脑也是对控制非常紧密相关的，它是自动的、快速的、无意识的，大脑就更多是主动的、规划。我们就把它这个设计就分成了从最底层叫Proprioception，就是本体的控制，是最下面的叫Primitive-Level，这个神经网络。最上面一层Exteroception，Exteroception就是与环境有关系的一个控制系统。其实下面还有一层更高的认知层面的系统，几个层面全是用神经网络来描述。

讲者介绍

张正友

浙江大学及法国巴黎第十一大学博士，腾讯最高专业职级17级研究员/杰出科学家，Robotics X实验室负责人。ACM Fellow，IEEE Fellow，"虚实集成世界"概念提出者。在立体视觉、三维重建等领域做出开创性贡献，发明“张氏方法”。发表国际学术论文百余篇，拥有近20项专利。曾任多项欧洲及法国重大计算机视觉和机器人项目负责人。

关于栏目

《温故知新|专题精选》是CCF Link推出的系列内容分享，内容均摘自会议语音实录，有任何问题或建议，欢迎联系CCF会议

具身智能往期专题

温故知新 | 人型机器人的ChatGPT时刻还有多远

温故知新 | 卢策吾：从气球“刮胡”神技到机器人抓取全球“顶流”

温故知新 | 初代网红机器狗MAX，怎么“人里人气”了？

正文

请到「今天看啥」查看全文