转发微博-20240917092946_张小北的专栏文章_微信文章

转发微博

#模型时代# 人形机器人如何帮人类实现永生？
硅谷人形机器人1X 前一阵放出了它们的新款机器人NEO的演示视频，随着公司创始人及相关高管也在一些播客节目做了一些宣传访谈。其中1X人工智能副总裁 Eric Jang的这只访谈，我认为含金量是最足的。
超过1个小时的访谈，从Eric Jang的学生生涯开始讲起，为什么他会从生物计算，转向深度学习；为什么相信基于Transformer规律定律是最靠谱的路线；1X的远程操作系统为什么是解决人形机器人落地困境的好方法等等。我又顺手看了一下Eric Jang的博客，发现也是含金量十足，链接：evjang.com。尤其是这篇《所有道路都通向机器人技术》，链接：

网页链接，可以看作是这一派科学家的檄文。

访谈中，很有意思的一段是他谈自己为什么从生物计算，转向深度学习，并开始信仰Scaling Law的，非常有意思：
***
"在高中时，我对神经形态大脑模拟非常感兴趣。我有幸能在斯坦福大学的Kwabena Boahen实验室做志愿者，在那里我学习了编程的基础知识，以及神经形态模拟和计算神经科学的知识。
神经形态计算的基本思想是，你想在硅中模拟神经元的生物物理学，而不是在培养皿中。大脑中有很多神经元，有很多突触。用普通的CPU模拟这个几乎是不可能的。即使你有GPU，也非常困难。所以这个想法是基本上建立一个定制芯片，可以非常快速地模拟大量的这些神经元和连接。
然而，我意识到，除非你使用神经形态学，否则不可能实时模拟大量的神经元和突触。所以如果你想建造一个生活在我们中间的机器人，它的大脑必须实时运行。你不能慢速运行它。
你可以做一个简单的计算，会发现你真的无法模拟超过大约一百万个神经元，然后是这些神经元之间的大约一万亿个连接。在这一点上，这基本上是无望的。你的电脑无法更快地模拟它。
作为一个大学生，我们没有超级计算机。所以我想做一些有用的事情。对我来说，我的笔记本电脑无法模拟任何有意义数量的神经元，这是非常令人沮丧的。
在大学期间，我主要学习计算机科学和数学。之后，我去了Google，在那里我花了六年时间研究如何让机器人变得聪明的各种方法。这涉及到扩展数据、使用强化学习、思考数据如何影响泛化等。我还研究了一些更核心的机器学习方法，比如生成建模。
正是在那段时间，我形成了关于如何正确进行通用机器人技术的核心框架。这基本上就是我们今天看到的情况:你扩展大量的数据，找到某种像海绵一样的神经网络，然后在所有这些数据上训练这个数据海绵。一旦它以非常有效的方式吸收了所有数据，它本质上就变成了一个前额叶皮层。
在计算神经科学中，你会看到很多论文提出对这些模型的扩展，比如让我们给transformer添加一些东西使其更智能。但如果你要让transformer变得更大，梯度流向transformer的速度会变慢。这就成了一个工程上的权衡:你是想要样本效率还是想要2倍的训练成本?在非常大的规模上，这通常是行不通的。"

一些核心论点：
***
1.深度学习vs类脑计算:
"在大学里，我主要学习计算机科学和数学。我在Pixar工作了一段时间，然后去了Google。在Google，我花了六年时间研究如何让机器人变得聪明的各种方法。这涉及到扩展数据、使用强化学习、思考数据如何影响泛化等。我还研究了一些更核心的机器学习方法，比如生成建模。
正是在那段时间，我形成了关于如何正确进行通用机器人技术的核心框架。这基本上就是我们今天看到的情况:你扩展大量的数据，找到某种像海绵一样的神经网络，然后在所有这些数据上训练这个数据海绵。一旦它以非常有效的方式吸收了所有数据，它本质上就变成了一个前额叶皮层。
在计算神经科学中，你会看到很多论文提出对这些模型的扩展，比如让我们给transformer添加一些东西使其更智能。但如果你要让transformer变得更大，梯度流向transformer的速度会变慢。这就成了一个工程上的权衡:你是想要样本效率还是想要2倍的训练成本?在非常大的规模上，这通常是行不通的。"

2.人形机器人产业的三大突破:
"我认为对人形机器人的怀疑来自于三个方面:
首先，执行器技术变得几何级地便宜了。以前20万美元的东西，现在从中国进口不到5000美元。几年内，我们可能会看到价格低于4万美元的人形机器人。这已经比大多数独立的机器人手臂还要便宜。
其次，在软件方面，现在可以构建能够执行许多任务的通用软件系统，这要归功于机器学习。就像ChatGPT一样，从第一天起，你就不只有一项技能，而是有数百万项技能。当你有一个如此通用的软件系统可以做这么多事情时，它就证明了使用一个非常通用的硬件平台是合理的。
第三，这个想法是，'让我们构建最简单的东西，然后逐步发展'。但很多机器人公司采取这种策略后，往往会停滞在为客户构建的特定自动化解决方案上，永远不会发展到更复杂的系统。我认为，要获得真正的通用目的系统，你真的需要达到那种不需要编写新代码就能添加新任务的程度。"

3.1X公司的优势 - 远程操作系统:
"在1X，我看到了一个很好的机会，因为他们有一个非常出色的远程操作系统，可以让人类控制机器人并完成各种任务。远程操作系统的真正酷的战略要素是，它告诉你一旦有了AI，可能达到的上限能力是什么。
所以如果你可以远程操作机器人完成某些烹饪任务，那就大致是你可以想象AI能够做到的。它真正确立了你的想象力和计划，以及在你实际构建AI系统之前可以提供的服务。
拥有一个真正好的远程操作系统告诉你在AI的最佳可能情况下我们可以期待得到什么。这在某种程度上并不完全正确，实际上是有可能做得比人类演示更好的。但从实际的角度来看，人类已经非常聪明了。所以在你试图超越人类之前，你应该只是期望你项目的前几年基本上就是试图达到那个人类水平。"

4.解决人形机器人使用问题的方法:
"我们认为，要获得大量通用能力，唯一的方法是建立一个任何人都可以添加任务的系统。因为如果不这样做，你的能力增长就会受限于会写代码的人数，而这个数字太小了。
我们还不完全清楚消费者添加技能的界面会是什么样的，但你可以想象它有点像那些玩具，你可以按下一个按钮，录下你的声音，然后它就会跟着你的声音跳舞。把它想象成一个几乎智能的录音机，你给它展示几次，这个录音，它会播放，但它会以一种智能的方式播放。
所以如果你的鸡蛋没有放在你想要的确切位置，它仍然会记录下任务的一般理解，而不是你在演示中记录的实际手臂动作。我们基本上想建立一个系统，有点像'看见就能做'，但它能推广到环境中的小变化，因为家庭总是在变化的。你不能期望所有东西总是在同一个地方。"

5.康威定律的讨论:
"有一个叫康威定律的东西，就是组织往往会反映他们制造的产品。产品反映了制造它们的组织的通信结构。我认为一个被很多人忽视的，但我非常强烈相信的是，一个团队应该将组织架构构建得看起来完全像他们正在制造的东西。
在这个AI时代，如果你试图制造端到端的模型，我认为建立一个组织架构，其中有单独的组件然后折叠成一个大东西，这并不太有意义。你实际上应该像一个未分化的神经网络那样建立你的团队，反映你试图建立的系统。
如果你想要特定的组织结构，你可以尝试通过人力资源来实现，但你也可以尝试通过软件来实现。所以你实际上可以通过重构你的软件来影响组织结构，这将渗透到组织中，反之亦然。如果你想重构你的代码库，你也可以重构组织。这些变化真的是相互同步的。"

高飞的微博视频

转发微博-20240917092946

正文

2024-09-17 09:29
本条微博链接