专栏名称: 机器学习研究组订阅
连接人工智能技术人才和产业人才的交流平台
目录
相关文章推荐
爱可可-爱生活  ·  【AI-Powered Podcast ... ·  21 小时前  
爱可可-爱生活  ·  【vllm-ascend:让大模型在Asce ... ·  21 小时前  
新智元  ·  4500美元复刻DeepSeek神话,1.5 ... ·  昨天  
51好读  ›  专栏  ›  机器学习研究组订阅

养老机器人真来了!国产顶流泡茶喂猫练咏春,帮十亿人做家务

机器学习研究组订阅  · 公众号  · AI  · 2024-08-21 17:30

正文

4个月前,星尘智能的Astribot S1横空出世——叠衣、分拣物品、颠锅炒菜、吸尘清洁、竞技叠杯等复杂技能样样精通。

一通丝滑操作猛如虎,甚至还被网友冠上了国产人形机器人「核弹」的头衔。

网友们纷纷表示:忽然看到未来养老机器人的希望!

不仅如此,它在国外也破了圈。

人形机器人市场咨询师Stewart Swayze称,我们离《杰森一家》中的Rosey越来越近了。

4个月后,星尘智能直接 向公众秀真机 了!

在今日举行的机器人大会上,顶流机器人一再奉上精彩表现,直接刷爆了好评。

就连大名鼎鼎的Figure AI公司CEO,也在实时追踪。

世界机器人大会现场,它用毛笔写下了铿锵有力的「北京」二字,围观群众为它响起了热烈的掌声。
你可能会疑问: 这家机器人的操作怎么这么神,在其他家机器人那里怎么没见过?

文能弹琴逗猫,武能咏春篮球,顺便跳个海草舞

我们来逐帧看看这个两天前发布的详细产品演示!

S1产品视频

视频中,Astribot S1能泡茶、做华夫饼、喂猫、清洁……完成一连串高难度、长序列、可泛化的任务,说一句 「最强AI机器人助理」 ,一点也不夸张!

划重点,以上这些demo,都是 1倍速 、实物实拍、 无遥操作 的。

S1表现出的敏捷、灵活、精准和丝滑度,无不令人惊叹。

要知道,上面这些动作人类做起很轻易,但对机器人来说,需要跨越极高的技术门槛,单拎出哪一个都不简单。

比如泡功夫茶这个复杂工具泛化的最强操作。

洗茶、冲泡、倒茶、分茶它样样都能拿捏。用视觉识别技术识别茶具位置、形状和状态,用精确的触觉和力觉控制系统舀茶叶、注水、倒茶,一气呵成。

在以后,我们还会有了解自己饮茶偏好的机器人,来提供个性化服务。

而弹奏扬琴,对机器人的细微操作和精准控制能力要求极高。

懂乐器的朋友们都知道,打击乐的精髓,就在于敲击动作的精准度。而且,演奏所持的琴竹和敲击的琴弦都具备弹性,这更是让控制的复杂性大大增加。

机器人必须具备极高的力控能力,和对弹性特性的准确建模,才能「硬控」住弹性形变,同时精细调节敲击力度。

可以看到,机器人会首先利用视觉识别技术,捕捉琴弦的位置和扬琴的结构;然后利用力觉反馈系统,让每一次敲击琴弦都安全准确,既不会太轻也不会太重。

接下来,S1还有一波酷炫操作。其中,投篮要的是精确控制力量和协调性,跳舞和打拳,则是要流畅的身体动作和节奏感。

相信大家看完演示,都有一个共同的感受:这个机器人,怎么这么像人?

是的,星尘智能的理念,即是 让机器人像人一样学习、思考和劳动,不断拓展应用边界。

看完S1大秀的这波神操作,我们有理由相信,它离人类互动和家务场景已经不远了!

智能需要一个「身体」

能承载如此多高难度的精细操作,S1的身体,有必要说道说道。

生产线上精确控制的机械臂,不能算作机器人,因为既没有智能,也不会学习和处理问题。

那么,把大模型塞进机器人,就能得出真正的具身智能吗?

显然,并非如此。

正如Linda Smith在「具身假说」中所提出的,只有当一种智能能够感知和导航物理环境时,人类水平的智能才能出现,就像婴儿通过探索环境来学习一样。

同样,Meta的研究科学家Akshara Rai也曾表示,「缺乏物理具身的AI系统永远无法真正智能。想要完全理解世界,就必须与之进行互动,并观察这些互动的结果。」

所以,让AI发展出真正智能的唯一方法,就是给它一个身体,以及在世界中移动和体验的能力。

相比之下,纯数字化的AI可能在处理特定任务时表现出色,但总会遇到智能的天花板。

爆火全网的Flux+Gen 3生成的视频之所以有破绽,也是AI没有人类的身体,不理解人类的舌头、头发、眼睛为何物

然而,大多数机器人行业的人都知道,「做机器人很难」。这也正巧体现了 莫拉维克悖论:对机器人来说容易的事情对人类很难,反之亦然。

随着LLM的爆火,机器人研究领域也出现了一种新的趋势:将LLM嵌入到规划中,将VLM嵌入到感知中,将代码生成用于执行。

把AI「脑」放进机器人「身」,就足够吗

但仅仅把未经训练的AI 「大脑」放入机器人「身体」里,并不能解决问题。

毕竟,具身智能机器人是集众多领域之大成,包括但不限于机器学习、强化学习、计算机视觉、机器人技术、规划与控制、环境建模与预测、基于物理的仿真等等。

因此,各种多亟待解决的挑战也随之而来。

- 现实世界的知识:具身智能必须对物理世界及其规律和动态特性有深刻的理解,从而能够有效且安全地进行交互。

- 学习和适应能力:具身智能必须从经验中学习,并适应不断变化的环境。这需要先进的学习技术和极大的灵活性。

- 复杂的实体交互:具身智能需要一个能够与物理世界进行自然交互的系统。这涉及到运动协调、环境感知和实时决策的管理。

- 鲁棒性和可靠性:具身智能需要足够的鲁棒性(Robustness),从而可以在真实且常常不可预测和动态的环境中可靠地运行。

怎么解决?靠的就是机器人身体和大脑的完美配合。

研发耗时一年,S1在软硬一体化系统架构上取得了重大突破,既有智能的大脑,也有全能的身体。

星尘智能认为,研发出新一代最强AI机器人助理,便需要将 「AI智能」和「最强操作」强耦合。

在智能方面,S1拥有一个「最强大脑」。

不仅可以在复杂环境中进行感知、认知、实时决策,而且还具备智能理解和多模态交互执行能力。从而实现物体、任务和环境级别通用操作泛化。

更厉害的是,S1还具备 持续学习进化 的能力。

从前文的demo中不难看出,S1能像人一样去理解和分析、与人流畅交互,更能通过与人、与真实世界交互获得海量高维数据,从而持续学习进化,不断提升智能化和多任务泛化能力,逐步实现通用智能。

最强大脑,数据为先

大多业内人士认为, 机器人训练最大的瓶颈就是缺乏数据。 更何况,机器人还需要理解物理定律和人类现实世界。

对此,星尘智能的思路是:不仅要收集所有可以得到的数据,而且还要高效地利用起来。

「仿真数据要用,人体动捕数据要用,机器人实操数据也要用!」

而由此得到的S1,既可以用第一人称,支持从视频、动捕,以及遥操作收集多维度的高质量数据,实现人类多模态数据交互,也能低成本、高效率地利用已有的真实世界视频数据,以及人体动作数据。

围绕「力」展开研发,既丝滑又安全

在关于S1的视频中,弹幕中最常出现的评论就是——「太丝滑了」,为什么S1会让人有这样的感觉呢?

当然是因为, 它「用力」方式和人是一致的。

如果只是轨迹一致,并不能满足实操的效果,反而会僵硬,也没有泛化能力。怎么办?

星尘智能的解决办法是—— 追求更高数据维度,也就是力觉、触觉等。

如果把力的信息采集下来,就能让机器人像人一样,用施加某种力的方式控制精度。

比如,S1把盐舀起来后,会在杯壁上刮了一下,可谓是把人的精巧、细微的力度控制都学出来。

给黄瓜缫丝的场景,也让很多人印象深刻。
在这个过程中,靠的就是力,而不用依赖路径。把刀压在黄瓜上,机器人会感受这个力,因此,直接把黄瓜换成胡萝卜也是可以的,极大提升了泛化性。
同样,安全的基础也是力。知道交互时要用多少力,才能不伤人、不伤己、不伤环境。
也正是因此,S1的行为举止,会无比接近人。

靠硬件,实现最强操作性能

数据解决了,接下来就要看硬件的了。
S1采用了全新的 刚柔耦合传动机构设计 ,刚柔并济,能 低成本实现 同规格机器人中的 「最强操作性能」
小小一个S1,单臂的额定负载就达到了10千克,平举10千克。
4月首发的S1 demo中,团队侧重的是 「有价值的上半身」 。现经过4个月训练,已将其打造成一个完整的机体。
具体来说,他们加入了仿人的腰,还有移动底盘,做出了 「可落地的下半身」
首先,有了移动底盘,扩大了S1的操作空间。从仅限桌面上的任务,扩展到不论任何高低的地方,皆可实现。
其次,在腰部,他们以人类自身为原型,从胳膊和腰发力的力度,得到启发,引入仿人的腰。
因此,S1能够执行用吸尘器清洁、蹲地喂猫粮等,这都需要腰部用力。

同时,团队经过慎重思考后,加入了仿人结构。
这种结构既提升了能力,又可以直接让机器人来学习采集来的人体数据。

核心:软硬一体

总之,S1如此成功的核心,就是软硬一体。
因为做到了软硬一体,所以机器人既能把握硬的准度,又能把握软的力度。无论是结构设计,还是很底层的硬件设计,都在追求这两者之间的平衡点。
虽然大家按照惯例,会觉得工业臂的刚度很高、能达到很高的精准,但CEO来杰认为,这条技术路线不可能进入家庭。
原因就在于,它的柔度不够。人可以很好地控制力度,而后者,才是交互的关键。
软硬一体,也是AI和机器人的耦合。
AI希望从数据里得到一些概念,但机器人本身,是纯物理世界的东西。
之所以要在硬件和AI上同步发展,也是因为硬件才是数据的来源。
在加入丰富的传感器、动作能力和执行器之后,就能解决数据可不可以被执行的问题。
而这个过程中,就真正体现了「软硬一体」的精髓。

鹅厂大佬创业,要让数十亿人用上AI机器人

当我们深扒S1背后的公司,更是为他们的神速所震惊了。
成立一年多,就做出让业界刮目相看的顶流明星机器人,初创背后技术团队的实力,着实不容小觑。
2022年底,星尘智能由创始人兼CEO来杰在深圳创立,核心6人团队,全部出自腾讯RobticsX实验室。
值得一提的是,来杰还曾是腾讯RobticsX实验室1号员工,拥有16年机器人研发经验。
鹅厂的轮腿式机器人Ollie,以及多款新型机器人,皆是由他主导研发。此外,他还曾担任过百度「小度机器人」团队负责人。
不仅如此,星尘智能团队的核心成员,还有来自谷歌、华为、大疆、优必选等国内科技大厂和顶尖高校。
这些顶尖AI人才的汇聚,就是为了做好一件事:要让通用机器人走进千家万户。
自今年4月,S1机器人demo首发亮相,凭借其灵巧的操作能力,在业界引发极大的关注。
而这家公司的创业团队,一直以来专注研发,对外比较低调。
今天,让我们来一起来扒一扒,创始人来杰和团队背后的故事。
究竟是什么契机,让他选择了在2022年底这个时间点上入局机器人领域?

从谷歌项目找到灵感

恰在2022年,谷歌发布了PaLM-SayCan,将语言模型PaLM与助手机器人结合,让其更好与人互动,提供帮助。
在此之前,来杰和团队一直集中精力去攻克具身模型、机器人本体,却没有深入到更上层的要素——模型。
谷歌SayCan项目的出现,让他们突然找到了灵感。
再加上,在百度小度机器人团队时,他本人也在一直关注语言模型的发展,并预感到类似GPT模型未来会现身。
甚至,在他的大脑中,已经有了「世界模型」概念的雏形。
也就是, 真正的智能,上层架构可以实现逻辑理解,中层架构能理解物理世界,底层架构可以实现与世界交互。
凭借在技术上的敏锐的嗅觉,来杰果断走出实验室,创办了星尘智能。
到了2023年,具身智能概念虽火了一年,但其中仍有很多问题还未解决。
如上所述,在AI+机器人行业领域深耕16年,来杰已经踩过非常多的坑,因此对机器人理解更偏架构层面。
首先,第一个问题是,AI和机器人该如何结合?
有时候,并非是我们所想的,用AI数据堆砌的方式就能解决那么简单,必须要本体性能得到提升。
实际应用中, 有一些泛化问题,无论怎样提升数据质量,都无法解决。
因此,需要赋予机器人本体一些能力,在硬件设计上不断迭代,推陈出新。
其次,第二个问题是,在机器人行业发展过程中,抓手在哪?
数据、算法、算力是AI和机器人强耦合的重要因素。这其中,恒定不变的,唯有数据。






请到「今天看啥」查看全文