专栏名称: 张小北
编剧,太空堡垒预告片工作室联合创始人 工作事宜请联系邮箱:[email protected]
目录
相关文章推荐
中国电影资料馆  ·  青葱计划影展活动日程来了! ·  3 天前  
张小北  ·  -20240916002039 ·  3 天前  
张小北  ·  //@来去之间:#涨姿势#-20240915 ... ·  4 天前  
51好读  ›  专栏  ›  张小北

转发微博-20240917092946

张小北  · 微博  · 电影  · 2024-09-17 09:29

正文

2024-09-17 09:29

转发微博
#模型时代# 人形机器人如何帮人类实现永生?
硅谷人形机器人1X 前一阵放出了它们的新款机器人NEO的演示视频,随着公司创始人及相关高管也在一些播客节目做了一些宣传访谈。其中1X人工智能副总裁 Eric Jang的这只访谈,我认为含金量是最足的。
超过1个小时的访谈,从Eric Jang的学生生涯开始讲起,为什么他会从生物计算,转向深度学习;为什么相信基于Transformer规律定律是最靠谱的路线;1X的远程操作系统为什么是解决人形机器人落地困境的好方法等等。我又顺手看了一下Eric Jang的博客,发现也是含金量十足,链接:evjang.com。尤其是这篇《所有道路都通向机器人技术》,链接:网页链接,可以看作是这一派科学家的檄文。

访谈中,很有意思的一段是他谈自己为什么从生物计算,转向深度学习,并开始信仰Scaling Law的,非常有意思:
***
"在高中时,我对神经形态大脑模拟非常感兴趣。我有幸能在斯坦福大学的Kwabena Boahen实验室做志愿者,在那里我学习了编程的基础知识,以及神经形态模拟和计算神经科学的知识。
神经形态计算的基本思想是,你想在硅中模拟神经元的生物物理学,而不是在培养皿中。大脑中有很多神经元,有很多突触。用普通的CPU模拟这个几乎是不可能的。即使你有GPU,也非常困难。所以这个想法是基本上建立一个定制芯片,可以非常快速地模拟大量的这些神经元和连接。
然而,我意识到,除非你使用神经形态学,否则不可能实时模拟大量的神经元和突触。所以如果你想建造一个生活在我们中间的机器人,它的大脑必须实时运行。你不能慢速运行它。
你可以做一个简单的计算,会发现你真的无法模拟超过大约一百万个神经元,然后是这些神经元之间的大约一万亿个连接。在这一点上,这基本上是无望的。你的电脑无法更快地模拟它。
作为一个大学生,我们没有超级计算机。所以我想做一些有用的事情。对我来说,我的笔记本电脑无法模拟任何有意义数量的神经元,这是非常令人沮丧的。
在大学期间,我主要学习计算机科学和数学。之后,我去了Google,在那里我花了六年时间研究如何让机器人变得聪明的各种方法。这涉及到扩展数据、使用强化学习、思考数据如何影响泛化等。我还研究了一些更核心的机器学习方法,比如生成建模。
正是在那段时间,我形成了关于如何正确进行通用机器人技术的核心框架。这基本上就是我们今天看到的情况:你扩展大量的数据,找到某种像海绵一样的神经网络,然后在所有这些数据上训练这个数据海绵。一旦它以非常有效的方式吸收了所有数据,它本质上就变成了一个前额叶皮层。
在计算神经科学中,你会看到很多论文提出对这些模型的扩展,比如让我们给transformer添加一些东西使其更智能。但如果你要让transformer变得更大,梯度流向transformer的速度会变慢。这就成了一个工程上的权衡:你是想要样本效率还是想要2倍的训练成本?在非常大的规模上,这通常是行不通的。"

一些核心论点:
***
1.深度学习vs类脑计算:
"在大学里,我主要学习计算机科学和数学。我在Pixar工作了一段时间,然后去了Google。在Google,我花了六年时间研究如何让机器人变得聪明的各种方法。这涉及到扩展数据、使用强化学习、思考数据如何影响泛化等。我还研究了一些更核心的机器学习方法,比如生成建模。
正是在那段时间,我形成了关于如何正确进行通用机器人技术的核心框架。这基本上就是我们今天看到的情况:你扩展大量的数据,找到某种像海绵一样的神经网络,然后在所有这些数据上训练这个数据海绵。一旦它以非常有效的方式吸收了所有数据,它本质上就变成了一个前额叶皮层。
在计算神经科学中,你会看到很多论文提出对这些模型的扩展,比如让我们给transformer添加一些东西使其更智能。但如果你要让transformer变得更大,梯度流向transformer的速度会变慢。这就成了一个工程上的权衡:你是想要样本效率还是想要2倍的训练成本?在非常大的规模上,这通常是行不通的。"

2.人形机器人产业的三大突破:
"我认为对人形机器人的怀疑来自于三个方面:
首先,执行器技术变得几何级地便宜了。以前20万美元的东西,现在从中国进口不到5000美元。几年内,我们可能会看到价格低于4万美元的人形机器人。这已经比大多数独立的机器人手臂还要便宜。
其次,在软件方面,现在可以构建能够执行许多任务的通用软件系统,这要归功于机器学习。就像ChatGPT一样,从第一天起,你就不只有一项技能,而是有数百万项技能。当你有一个如此通用的软件系统可以做这么多事情时,它就证明了使用一个非常通用的硬件平台是合理的。
第三,这个想法是,'让我们构建最简单的东西,然后逐步发展'。但很多机器人公司采取这种策略后,往往会停滞在为客户构建的特定自动化解决方案上,永远不会发展到更复杂的系统。我认为,要获得真正的通用目的系统,你真的需要达到那种不需要编写新代码就能添加新任务的程度。"

3.1X公司的优势 - 远程操作系统:
"在1X,我看到了一个很好的机会,因为他们有一个非常出色的远程操作系统,可以让人类控制机器人并完成各种任务。远程操作系统的真正酷的战略要素是,它告诉你一旦有了AI,可能达到的上限能力是什么。
所以如果你可以远程操作机器人完成某些烹饪任务,那就大致是你可以想象AI能够做到的。它真正确立了你的想象力和计划,以及在你实际构建AI系统之前可以提供的服务。
拥有一个真正好的远程操作系统告诉你在AI的最佳可能情况下我们可以期待得到什么。这在某种程度上并不完全正确,实际上是有可能做得比人类演示更好的。但从实际的角度来看,人类已经非常聪明了。所以在你试图超越人类之前,你应该只是期望你项目的前几年基本上就是试图达到那个人类水平。"

4.解决人形机器人使用问题的方法:
"我们认为,要获得大量通用能力,唯一的方法是建立一个任何人都可以添加任务的系统。因为如果不这样做,你的能力增长就会受限于会写代码的人数,而这个数字太小了。
我们还不完全清楚消费者添加技能的界面会是什么样的,但你可以想象它有点像那些玩具,你可以按下一个按钮,录下你的声音,然后它就会跟着你的声音跳舞。把它想象成一个几乎智能的录音机,你给它展示几次,这个录音,它会播放,但它会以一种智能的方式播放。
所以如果你的鸡蛋没有放在你想要的确切位置,它仍然会记录下任务的一般理解,而不是你在演示中记录的实际手臂动作。我们基本上想建立一个系统,有点像'看见就能做',但它能推广到环境中的小变化,因为家庭总是在变化的。你不能期望所有东西总是在同一个地方。"

5.康威定律的讨论:
"有一个叫康威定律的东西,就是组织往往会反映他们制造的产品。产品反映了制造它们的组织的通信结构。我认为一个被很多人忽视的,但我非常强烈相信的是,一个团队应该将组织架构构建得看起来完全像他们正在制造的东西。
在这个AI时代,如果你试图制造端到端的模型,我认为建立一个组织架构,其中有单独的组件然后折叠成一个大东西,这并不太有意义。你实际上应该像一个未分化的神经网络那样建立你的团队,反映你试图建立的系统。
如果你想要特定的组织结构,你可以尝试通过人力资源来实现,但你也可以尝试通过软件来实现。所以你实际上可以通过重构你的软件来影响组织结构,这将渗透到组织中,反之亦然。如果你想重构你的代码库,你也可以重构组织。这些变化真的是相互同步的。" 高飞的微博视频