专栏名称: 机器之能
探索全球人工智能应用场景及商业化
目录
相关文章推荐
爱可可-爱生活  ·  【[1.2k星] Cloudflare ... ·  昨天  
黄建同学  ·  可以预见 2025年 AI Agents ... ·  昨天  
爱可可-爱生活  ·  【[118星]OpenLDK:用Common ... ·  4 天前  
51好读  ›  专栏  ›  机器之能

机器人大模型新公司!数据规模比同行大1000倍!贝索斯、孙正义等押注

机器之能  · 公众号  · AI  · 2024-07-12 15:11

正文

机器之能报道
编辑:Sia
OpenAI 的方式颠覆机器人世界。

「GPT-3 时刻正在进入机器人世界。

最近,Sequoia 合伙人 Stephanie Zhan 在投资了一家新机器人初创后说道。

无论是在物流、车厂试点的人形机器人,还是四足机器狗,都要有脑子。过去,脑子要定制,「专款专用」,现在,不必了。

最近,位于匹兹堡的机器人初创 S kild AI  声称,已经开发出 一种通用的智能系统。

它就像一个通用的智能模块,可以接入不同机器人,让他们立刻获得一些基本能力, 如爬坡、跨过障碍、识别和捡起物品。

7 月 9 日, Skild AI 正式宣布筹集到 3 亿美元 A 轮融资,公司估值达 15 亿美元。投资人阵容也非常强大,涵盖科技界、顶尖风投甚至学术机构。

贝索斯和孙正义的软银都出现在领投名单中,他们均以长期投资视野著称。

Lightspeed(领投)、Coatue(领投)、Sequoia、Menlo Ventures、General Catalyst 等都是全球知名的顶级风投,也出现在投资名单中。

卡内基梅隆大学的参投也表明,Skild AI 技术得到学术界认可。


-1-

何方神圣?

Skild AI 由两位前卡内基梅隆大学教授 Abhinav Gupta 和 Deepak Pathak 于 2023 年 5 月创立,长期目标是开发扎根于物理世界的通用人工智能 ( AGI )。

前卡内基梅隆大学教授 Deepak Pathak(左)和 Abhinav Gupta(右)创立了 Skild AI,他们也曾是 Meta 的 AI 研究人员。

团队成员来自 Meta、特斯拉、Nvidia、亚马逊、谷歌以及卡内基梅隆大学、斯坦福大学、加州大学伯克利分校和 UIUC 等名校。

Lightspeed 合伙人 Raviraj Jain 也于 2023 年 7 月领导了该公司的种子轮融资。 去年 4 月,他第一次看到 Skild AI 模型接受压力测试,至今印象深刻。

接入基础模型的机器人能在全新、未经专门设计的环境中执行任务——这可不是为了演示而特别准备的,是真实能力的展现。

看到机器人能爬楼梯时,他非常惊讶。爬楼梯是一个复杂的平衡问题,通常需要针对特定环境编程和训练,但 Skild AI 的模型能让机器人迅速学习和适应新环境,完成任务。

更让他印象深刻的是,机器人展现出一种「涌现能 力」,虽然很简单(如捡起从手中滑落的东西或者旋转某个物体),但没人特意教过它们。 我们曾在大型语言模型身上也观察到了类似现象。


-2-

数据集

「规模空前」,比对手的大1000倍

模型泛化能力和涌现能力,离不开所谓「规模空前」的数据集: 一个由文本、图像和视频组成的庞大数据集。

官方说法,比竞争对手使用的数据库大 1000 倍。(不知道对手是否包括特斯拉?:))


他们的基础模型在比其竞争对手大 1000 倍的数据集上进行训练,可以接入各种机器人,帮助他们获得如爬坡、识别和捡起物品等基础能力。

「规模空前」归功于他们结合了多种数据收集技术,既有一些常规操作,也有两位创始人多年研究工作中开发的「独门秘方」。

他们会让人类远程操作机器人,然后收集这些操作数据。另一个办法是让机器人执行随机任务,试错学习,并记录这些丰富的数据信息。

他们还利用大量公共视频训练模型。这些方法的结合有助于 AI 系统获得更强的适应性和理解力。

至于「独门秘方」,一个是 Deepak Pathak 读博时开发的一种向机器人灌输「人工好奇心」的方法。

当机器人对自己行为的结果感到不确定时,它就会变得更「好奇」,愿意探索更多场景,带回更多数据,增加学习的广度和深度。

Pathak 还设计了一种方法,可以将人类给 GPT 等大型语言模型下的命令(如打开一罐牛奶),转化为实际动作。

除了这些与物理世界交互和操作的真实数据,他们也结合了从模拟环境中收集的数据。
虽然模拟数据不能完全替代真实数据,但它可以提供大量的补充学习材料,特别是在一些难以在现实中频繁重复的场景中。

然而,这种综合的手段也面临挑战,比如如何有效地整合来自不同源的数据。

2022 年,两位创始人终于找到办法,将从不同源数据中学习(如从视频、基于好奇心、真实世界学习)整合到一个连贯系统中,大大提高了模型的学习效率和适应能力。


-3-







请到「今天看啥」查看全文