专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
爱可可-爱生活  ·  【[37星]Ola:打破多模态边界,实现图像 ... ·  17 小时前  
AI范儿  ·  DeepSeek 日活破 2570 ... ·  昨天  
AI范儿  ·  DeepSeek 日活破 2570 ... ·  昨天  
爱可可-爱生活  ·  【Python项目结构优化小技巧】想让Pyt ... ·  3 天前  
爱可可-爱生活  ·  【DeepSeek:比ChatGPT危险10 ... ·  3 天前  
51好读  ›  专栏  ›  新智元

中国首个通用泛化机器人终于来了!清华校友打造中国版Figure 01,连续泛化丝滑处理多任务

新智元  · 公众号  · AI  · 2024-09-03 12:25

主要观点总结

中国首个拥有真正意义多任务连续泛化具身模型的机器人诞生,由模型训练而成。多家机器人公司展示技术,但只有千寻智能展示出了强大的多任务连续泛化能力。该公司由豪华创业团队组成,拥有全栈AI工程化能力。机器人动作均由神经网络自动生成,能应对各种场景的任务挑战。公司还展示了夹子手可以更换为灵巧手等新技术。此次成功吸引了弘晖基金等投资机构的天使轮融资,未来有望批量落地商用服务和家用服务领域。

关键观点总结

关键观点1: 强大的多任务连续泛化能力

千寻智能展示了强大的多任务连续泛化能力,能够精准识别透明反光物体,无论杯子放到哪里,机器人的“夹子”手都能轻松hold住。

关键观点2: 豪华创业团队与全栈AI能力

千寻智能团队由来自UC Berkeley、CMU、NTU、清华、北大等国内外顶尖高校和企业的精英组成,拥有全栈的AI工程化能力,具备基座模型预训练、RL、IL等核心技术力。

关键观点3: 神经网络自动生成动作

所有机器人的动作均由神经网络自动生成,具有极高的精度和灵活性。

关键观点4: 投资机构的认可

千寻智能获得了弘晖基金领投的天使轮融资,同时得到了达晨财智、千乘资本等机构的跟投。投资机构对千寻智能的具身大模型技术和机器人研发能力给予了高度评价。

关键观点5: 未来市场前景

随着商用服务和家用服务的不断发展,具身智能的下一个爆发点即将到来。通用机器人成为人类的亲密伙伴,即将从科幻走入现实。


正文



新智元报道

编辑:编辑部
【新智元导读】 中国首个拥有真正意义多任务连续泛化具身模型的机器人,诞生了!这个机器人,是真正由模型训练出来的,据了解,截止目前除了Figure 01,国内似乎还没有第二家能做到这种级别的泛化能力,即使被百般刁难,都能完成任务。清华校友下场创业,才4个月就已融资近2亿。

刚结束的世界机器人大会,余热未消。
各家机器人展示的花活,令人眼花缭乱。
然而大概所有逛展的人都有这样一个感触:目前全世界范围内,真正拥有强大泛化能力、能应对各个场景的机器人,依然寥寥无几。
中国厂商中是否有哪家机器人,能够实现真正的多任务连续泛化能力?
还真有!消息灵通的我们打听到,一家名为「千寻智能 Spirit AI」的具身智能公司,已经首次展示出了强大的多任务连续泛化能力。
据说这家神秘的公司成立时间并不长,却展示出了如此级别的技术进步,他们究竟是怎么做到的?
最近,我们去探了个厂,详细记录下了那些惊掉我们下巴的瞬间。

所有动作均由神经网络自动生成

怎么刁难都不怕,动作无比丝滑


在研究人员的配合下,我们现场录制了一番demo。
拿着白色纸杯的小哥走近机器人,并发出请求「一杯意式浓缩」,忙于看手机信息的同时,他却不小心把杯子弄翻了。
来看看,千寻的机器人会怎么做?
只见,它自如地用一只手将纸杯摆正。

所有动作均由神经网络自动生成
然后用另一只手将其放在咖啡机上,按下功能键。

所有动作均由神经网络自动生成
等咖啡做好之后,再将盛满咖啡的杯子放到桌子中间,任务就大功告成了。

所有动作均由神经网络自动生成
接下来过来的这位小哥,想要一杯卡布奇诺。
不过这次,换的是一个透明的玻璃杯。
而就在机器人快要够到杯子时,小哥还有意「刁难」它,快速把杯子移走了。

所有动作均由神经网络自动生成
面对这种刁难,机器人表示完全没问题!
端到端神经网络强大的泛化能力,让机器人能精准识别透明反光物体,无论杯子放到哪里,它的「夹子」手都能轻松hold住。
接下来,我们出场了,决定给它来个高难度的任务。
先随手在机器人一只手旁摆放一个纸巾盒,再将纸杯子紧挨纸巾盒放置,并要求「来一杯美式」。
没想到,它一眼识别出身旁的障碍物,并将其移到一旁,成功取到了杯子。

所有动作均由神经网络自动生成
最后,我们喝到了机器人制作的美式。
更惊喜的是,我们还在现场意外地发现:千寻机器人的「夹子」手也可以更换成灵巧手!
它不仅精准拿起苹果,还可以将其颠起,精准拿住。
而且,据称无论是什么样的手——两指、三指、五指,都可以实现连续多任务泛化。
看到这儿之后,我们瞬感惊艳,可以畅想出千寻机器人走进家庭的未来,凭借强大的泛化能力,帮助人们完成各种各样的任务。

所有动作均由神经网络自动生成
紧接着,我们纷纷涌向会议室,好奇地问道,「千寻机器人究竟是如何实现如此完美地连续泛化能力」?

豪华创业团队,全栈AI配齐

这家堪称「中国Figure」的具身智能公司,智囊团在世界范围内也算是极其稀缺的。
幕后技术团队纷纷出自UC Berkeley、CMU、NTU、清华、北大、浙大、华为、腾讯、大疆、小米等国内外顶尖高校、企业。
在具身大模型、机器人研发,以及实际落地上,这支融合学术精英与业界翘楚的团队,展现出了卓越的实力。
他们不仅有着基座模型预训练、RL、IL等核心技术力,还在机械臂系统设计、机器人安全、控制架构等方面身处行业前沿。
正因如此,千寻智能才得以具备全栈的AI工程化能力。
一起来认识下,这支星光熠熠的领军团队,都有哪些关键人物。

创始人兼CEO韩峰涛

创始人兼CEO韩峰涛,师从机器人学术泰斗丁汉院士,在机器人领域中深耕十余年。
他曾任珞石机器人联合创始人&CTO,是国内高性能轻型工业机器人领军者和国内力控协作量产交付第一人,带队成功交付数十款型号的产品超20000台。
值得一提的是,这些产品还获得了43项国内外认证,其中包括全球仅有两家、国内唯一的医疗方向IEC60601安全认证。
而且,整机的自主化率达到了90%以上。
在产品应用方面,韩峰涛博士带领团队落地20+行业、100+场景,1000+客户的商业化成果转化。
除了丰富的实践经验,他还积极参加许多国家级科研项目。
今年2月,韩峰涛博士创办了千寻智能Spirit AI,致力于打造行业领先的通用机器人AI系统与人形机器人。

首席科学家高阳

而在AI能力方面,就不得不提另一位核心人物——首席科学家高阳,也是千寻智能的联合创始人。
他本科就读于清华计算机系,师从国内ML领域享有盛誉的著名学者朱军教授。
凭借出色的表现,他获得了UC Berkeley计算机系的全额奖学金,攻读计算机视觉博士学位。
这期间,高阳师从国际计算机视觉大师Trevor Darrell教授(曾培养了包括贾扬清在内的多位视觉领域知名学者)。
此外,在读博士、博士后期间,他曾与机器人学习领域的顶尖学者Sergey Levine和Pieter Abbeel教授有深入合作。
Pieter Abbeel是扩散模型(Sora、SD背后核心技术)的提出者之一。
爆火AI搜索初创Perplexity AI的创始人Aravind Srinivas,以及前OpenAI联创John Schulman,皆是他的学生。

论文地址:https://arxiv.org/pdf/2006.11239
此外,Sergey Levine教授是美国Physical Intelligence (Pi)的创始人。Pi是美国具身智能领域的头部公司,获得OpenAI等公司共计7000万美元的天使投资。
就读博士期间,高阳在AI顶会CVPR上,曾发表了一篇大规模现实世界数据的端到端自动驾驶论文。
这为后来的端到端自动驾驶,如FSD等,奠定了学术基础。

论文地址:https://www2.eecs.berkeley.edu/Pubs/TechRpts/2020/EECS-2020-5.pdf
在个人贡献方面,如上介绍的所有机器人背后核心技术,皆有首席科学家高阳的贡献。
他在具身智能的三层模型中,取得了丰硕的研究成果。






请到「今天看啥」查看全文