专栏名称: 中国计算机学会
中国计算机学会官方订阅号,为CCF会员及计算领域的专业人士服务。
目录
相关文章推荐
甘肃省司法厅  ·  夜读|真正有本事的人,往往都有这4个特征 ·  昨天  
冯唐  ·  冯唐五年前提出了一个好问题 ·  4 天前  
CEO盈利思维  ·  聪明与智慧的区别!(看完醒悟) ·  3 天前  
51好读  ›  专栏  ›  中国计算机学会

温故知新 | 初代网红机器狗MAX,怎么“人里人气”了?

中国计算机学会  · 公众号  ·  · 2024-09-07 18:53

正文


导读:初代网红机器狗MAX,是腾讯自研的多模态四足机器人,轮足结合的设计,不仅让它成为行走大师,向真狗学艺、奔跑跳跃、匍匐跨栏等,惟妙惟肖的行为,更是赚足眼球。随着多模态大模型与具身智能的深度融合,MAX的灵活性和自然性不但逐渐提升,甚至还能具备一定的情感理解,更通“人性”。让我们一起跟着张正友老师的本期分享,一探MAX“进化”的秘笈。


生成式AI控制:灵性觉醒的钥匙

在演讲中,张正友老师强调,未来的机器人必须具备自主学习的能力,以应对复杂多变的环境。他提出了一种全新的生成式AI控制框架,通过模仿学习与强化学习,让MAX在无需人为编程的情况下,自动学习并优化控制策略。这种生成式的神经网络控制,让MAX的行为看起来充满灵性,仿佛拥有了真正的智能。



SLAP范式:自主控制的革命性蓝图

面对传统控制范式在自主性方面的局限,张正友老师提出了创新的SLAP范式——感知(Sense)、学习(Learn)、行动(Action)、规划(Planning)。这一范式打破了传统感知-规划-行动的线性流程,实现了感知与行动的紧密融合,让机器人在面对突发情况时能够迅速反应,实现真正的自主控制。



迈向AGI:多模态融合的智能飞跃

展望未来,张正友老师预言,从文本到多模态的跨越,将是AI通往通用智能(AGI)的必经之路。他构想了多模态大模型与具身智能的深度融合,让机器人能够全方位感知世界,从视觉、听觉到触觉,实现深度环境认知与交互。未来,AI将不再是被动的响应者,而是主动探索、学习的智能伙伴,可以深度融入人类生活的每一个角落。


NEWS

想看更多内容?

下载Link APP,精彩内容随心看





精彩片段



我们来看一下,机器人的智能和人类的智能有什么区别,人类的智能,是诺贝尔奖获得者Daniel Kahneman他提出来的,他的一本书《Thinking, Fast and Slow》里面,他把人的智能分成两个系统,第一个系统叫SYSTEM 1,比较直接,这个直觉很快的切入,下意识的去思考的一个unconscious。第二个,这种叫Rational thinking,就是已知的逻辑推理的更高层的Thinking,就比较慢,95%的时间,我们人都是在系统1里面去运作的,只是到比较难的时候,它会上升到第二个system。那么我们看看我提出的SLAP,这个范式是对应什么呢?就是感知和行动,反应式自主对应System 1,一个直觉,叫percepts。上面的Planning的部分是为了实现无意识的自主,对应SYSTEM 2。有了这样子的理解,就会帮助我们今天要讲的这个生成式的控制系统。



我们分层的的设计其实跟人脑也是相关的,和人的智力相关。第二个,我们人脑也有一个小脑,小脑也是对控制非常紧密相关的,它是自动的、快速的、无意识的,大脑就更多是主动的、规划。我们就把它这个设计就分成了从最底层叫Proprioception,就是本体的控制,是最下面的叫Primitive-Level,这个神经网络。最上面一层Exteroception,Exteroception就是与环境有关系的一个控制系统。其实下面还有一层更高的认知层面的系统,几个层面全是用神经网络来描述。






讲者介绍



张正友

浙江大学及法国巴黎第十一大学博士,腾讯最高专业职级17级研究员/杰出科学家,Robotics X实验室负责人。ACM Fellow,IEEE Fellow,"虚实集成世界"概念提出者。在立体视觉、三维重建等领域做出开创性贡献,发明“张氏方法”。发表国际学术论文百余篇,拥有近20项专利。曾任多项欧洲及法国重大计算机视觉和机器人项目负责人。

关于栏目

《温故知新|专题精选》是CCF Link推出的系列内容分享,内容均摘自会议语音实录,有任何问题或建议,欢迎联系CCF会议

具身智能往期专题

温故知新 | 人型机器人的ChatGPT时刻还有多远

温故知新 | 卢策吾:从气球“刮胡”神技到机器人抓取全球“顶流”







请到「今天看啥」查看全文