专栏名称: 第一财经YiMagazine

这里是《第一财经周刊》读者俱乐部，我们为你发掘精彩的商业价值，也邀请你一起探寻明亮的商业世界。

大模型的视觉难题

第一财经YiMagazine · 公众号 · 财经 · 2024-12-04 08:51

主要观点总结

本文介绍了人工智能领域的新发展，包括通用翻译器的概念、模拟能力价值以及科学研究范式的转变等。文章提及视觉模型在人工智能中的发展及其所面临的挑战，以及具身智能的研究和应用现状。此外，本文还讨论了合成数据在人工智能训练中的价值以及面临的挑战。

关键观点总结

关键观点1: 人工智能的新发展及通用翻译器的概念和价值

文章介绍了人工智能领域的新发展，包括通用翻译器的概念、模拟能力价值以及科学研究范式的转变等。

关键观点2: 视觉模型的发展与挑战

文章提到视觉模型在人工智能领域的发展及其所面临的挑战，如通用视觉模型的缺乏以及如何处理多元输入和输出格式的问题。

关键观点3: 具身智能的研究与应用现状

文章讨论了具身智能的研究和应用现状，包括机器人的发展以及如何通过收集数据训练模型来解决场景特定的挑战。

关键观点4: 合成数据在人工智能训练中的价值及挑战

文章提到现有数据几乎耗竭，合成数据是下一个价值百亿美元的问题。

正文

撰文：吴洋洋

编辑：王杰夫

Key Points

上一轮AI的本质是「通用的函数逼近器」，这一轮大模型的本质是「通用翻译器」；

科学研究的范式在从人类学习数据并从中发现模式、智能，过渡为机器学习数据然后从中发现模式和智能；

但「通用翻译器」的能力边界也已经显现——尤其在进入真实物理世界的时候；

现有数据几乎已经耗竭，合成数据是下一个价值百亿美元的问题；

通用语言模型有了，通用视觉模型还没出现，这是价值超百亿美元的问题——事关具身智能。

11月23日，黄仁勋飞到香港，在香港科技大学和沈向洋进行了一次对谈。这次，他鲜见地没有在这次对谈中提到他热衷的「加速计算」，而是讲到了一些更为基础但也更富洞察的东西。

黄仁勋，61岁；沈向洋，58岁。

作为在英伟达当了30多年CEO的人，黄仁勋见证了人工智能的多次浪潮，他认为上一轮AI的本质是「通用的函数逼近器」（Universal Function Approximator），意思是深度神经网络可以通过强化学习的方式在网络中拟合任何函数，这种技术造就了图像识别；基于Transformer的生成式AI则是一种「通用翻译器」（Universal Translator），除了将一种语言翻译成另一种语言，它还能将文字翻译成图片、视频或者蛋白质、编程语言，反之亦然，所需训练数据是足够的文本-图片、文本-视频或文本-蛋白质、文本-编程语言数据对。

「翻译器」的本质意味着生成式AI并不是像人一样追求从第一性原理得出答案，而只是在从对数据的观察中找到模式、给出答案。因此，它只是在「模拟」语言、「模拟」物理学、「模型」智能……，但黄仁勋认为，这种模拟极具价值，它几乎可以颠覆人类科学家今天发现新理论的根本模式。「我们在众多科学领域理解了第一性原理，理解了薛定谔方程、麦克斯韦方程等许多此类方程，但我们无法模拟并理解大型系统。」黄仁勋说，但今天如果我们训练一个能够模拟极大规模系统（比如气候系统、海洋系统、金融市场、蛋白质、生物系统）的AI，我们就可以比不能模拟超出这些大型系统的时候更能理解它们。也就是说，模拟促进理解。最终，科学研究的范式会从人类学习数据并从中发现模式、智能，过渡为机器学习数据然后从中发现模式和智能。

沈向洋引用社交平台X上一位华盛顿大学教授的发言回应说：「美国顶尖大学过去十年中并未贡献太多开创性的论文，令人惊叹的工作更多是像英伟达、微软、OpenAI、Google DeepMind等顶尖公司完成的，部分原因是它们拥有足够的算力。」

沈向洋在IDEA大会上介绍研究成果。

沈向洋不只是在口头回应黄仁勋，事实上，这场对谈前一天，他刚刚在其参与创办的IDEA（粤港澳大湾区数字经济）研究院年度论坛中发布了多项基于这种「翻译器」功能的AI：能够在开放环境中检测物体的视觉模型DINO-X、可以帮编程用户写代码的编程语言Moonbit、和晶泰科技合作的能够预测蛋白质结构的化学大模型、通过从金融交易数据中提取成功因子从而提高投资收益的投资大模型，以及一个自称能让论文更易读的科研助手ReadPaper。

上面那位华盛顿大学教授在几年前发布了自己的见解，那时候，ChatGPT还没有发布，人工神经网络的主要功能还只是「通用的函数逼近器」，还没有成为「通用翻译器」。今天，机器能够从数据中学习的能力显然已经比当时强大太多，不过，IDEA研究院年度论坛上关于视觉模型和具身智能的讨论也表明，「通用翻译器」的能力边界也已经显现——尤其在进入真实物理世界的时候。

现有数据几乎耗竭，合成数据是下一个价值百亿美元的问题

与黄仁勋对谈前一天的IDEA研究院年度论坛上，沈向洋提到，OpenAI训练GPT-4几乎已经用光了现有互联网上能够得到的所有有效数据——20万亿tokens。他估计训练GPT-5大概需要这个数量10倍的数据规模，这是自有文明以来，人类尚未达到的产能。如果Scaling Law（即训练数据越多，模型越聪明）仍然有效，就需要有目的地去批量合成数据，而不能等待这些数据在人类社会中自然产生。

训练需要的数据不够了。

数据类型上，既需要能够让Scaling Law继续发挥作用的「预训练」数据，也需要能让类o1的模型进行强化学习的强逻辑性数据。沈向洋认为，合成数据是个价值百亿美元的问题。他声称，IDEA已经建立了一个合成数据平台「IDEA Data Maker」，并已推出API，可供客户调用。

通用语言模型有了，通用视觉模型还没出现

迄今为止，开创视觉生成模型先河的Sora仍在测试，没有正式上线。视觉领域的ChatGPT时刻始终没有到来。IDEA 11月22日发布的DINO-X模型号称能够检测开放环境的几乎所有物体，李飞飞的「空间智能」创业公司据说已经在工作流中使用了这个DINO模型，让机器人先把空间中的各种物体检测出来，再用三维技术提取物体的三维结构。不过这个模型也不是通用视觉模型，它只能根据prompt识别出2D物体，无法识别3D。

IDEA研究院计算机视觉与机器人研究中心负责人张磊称，通用视觉模型难以构建，原因之一是视觉问题的输入和输出非常多元。语言模型的输入和输出都是单词序列，而视觉模型的输入有时候是图片，有时候是视频，有时候是2D的，有时候又是3D的，输出层的格式同样多元，可以是给图像或视频分个类，也可以是对图像做个描述，或者要给出物体的坐标，还有的时候需要得到物体的三维结构。「视觉模型从算法层面还没有做到真正统一的形式」，张磊说。

而视觉最大的场景是具身智能，即将视觉模型应用在机器人、自动驾驶、无人机等领域，这意味着3D数据对于视觉模型不是可有可无，而是必需。但这类数据是所有视觉数据中最稀缺的。而且，如何将视觉数据和深度传感器、触觉传感器等多维数据融合起来，仍是个挑战。

张磊称，在做完2D检测后，IDEA研究院的下一步是进入机器人领域。当天的论坛上，IDEA研究院宣布与腾讯合作，在深圳福田区合建「福田实验室」，专注于人居环境的具身智能技术研究。「机器人走过一个空间看到某个地方有个冰箱，转一圈回来又看到这个冰箱，它必须知道这是同一个冰箱，而不能认为这是另一个冰箱。」张磊说，目前机器人还没有像人一样的物理空间概念。

视觉模型到具身智能很近，但其与运动系统的协作是个坎

是否收集到足够的3D数据，机器人就能具有像人一样的空间智能？答案可能是否定的。张磊称，目前机器人若要从空间中抓取东西，仍然需要基于对事物X、Y、Z三维坐标的计算，据此做好规划后，才通过机械手臂去执行抓取，整个过程就像「闭着眼睛去抓」。而人脑并不计算三维坐标，而且人眼能实时为是否抓得到物体提供视觉反馈。也就是说，具身智能中的视觉不是单纯的视觉问题，而是涉及与运动系统的协作。

「我们现在的视觉模型、语言模型，处理视觉和语言的方式跟人的确不同。」腾讯Robotics X实验室智能体中心负责人韩磊说，业界都承认这一点，这种不同意味着机器人可能需要在很多问题上都找到自己的解法，而很多问题都尚未有解。比如「快速决策」，人手摸到很烫的杯子能马上缩回来，不需要让大脑知道手在摸什么东西才去作要不要缩回来的决策，而大模型「预测下一个token」的决策模式可能会有「幻觉」，试图降低这种错误预测的推理模型（比如o1）又需要更长的「思考」时间。韩磊认为，具身智能在算法层面仍然需要向人学习，有些任务需要通过大脑的慢想，有些任务则可以交给小脑快速反应。

美团副总裁兼无人机业务部负责人毛一年谈到了机器人的多感官竞争问题。他举例说，人有眼睛、鼻子、耳朵等多个互补的感知器官，它们在人执行任务中有不同的优先级，以抓杯子为例，碰到杯子之前，视觉主导人的行为决策，而当碰到杯子后，就会变成触觉以及其他身体知觉来主导，人甚至不用再看着杯子就能把它送到自己嘴边喝水了。这种模态切换几乎是无缝的，而机器人今天无法做到，它们甚至连哪个传感器有效、哪个无效都不知道。

以无人机为例，今天的无人机为了应对各种飞行环境——晴天、夜里、雨中、城市楼宇间等，已经配备了从卫星、无线电波、摄像头、毫米波、激光雷达到气压计各种导航、定位、位置和速度计算装置，但当最后需要作决定的时候，无人机无法知道哪个传感器最靠谱。而且当一种主导信号消失或被干扰的时候，人脑会自动切换另一种感官，比如从很亮的屋子进入没有灯光的黑屋，人会自动从眼睛导航转为靠扶墙来解决问题的触觉导航，但无人机做不到这种切换。「它们没有这种知识，（连分辨）地面和天空都做不到。」毛一年说。

端到端是解法吗？

特斯拉在自动驾驶领域的探索让不少人看到「端到端」模式的可能性，即让机器人看过足够多的场景，训练到看到或接收到某种信号就做出特定行为的地步，就认为机器人获得了应对各种场景的能力。这种模式相当于将传感器信号视为一种语言，而车辆或机器人行为是另一种语言，模型的作用就是将传感器语言翻译成机器人的行为反应。

张磊称，过去一年有不少机器人公司都试图通过端到端模式来解决机器人在三维空间中的运动问题，而且取得了「惊艳」的效果，尤其在手臂操作领域。但这条路径仍然面临两项挑战，其一是端到端模式的老问题——它是个黑盒，一旦出现问题没人能够解释，而且没办法修正；其二，张磊认为这些模型的「泛化性」还不够，即机器人学会了在一个领域根据感官信号做出相应动作，比如看到某个形状的零件就将其抓起来，这种能力难以被延用到其他领域，比如去洗个衣服。

「无人驾驶之所以能做到端到端，比如特斯拉，是因为它们有大量的量产车在路上正常行驶，它有足够多该场景的数据。」张磊说，但这套系统也仅适用于驾驶。毕竟在自动驾驶汽车前，是有汽车存在的，数据迁移有迹可循；但此前从未有过大量机器人出现在我们的世界里，这些机器人场景数据都需要从头积累，比互联网数据要少几个量级。

张磊和毛一年都认为，具身智能领域继续往下发展的有效做法只能是先分场景、环节地解决问题，再将这些环节、场景合起来。毛一年称，他们接下来准备聚焦在无人机领域，解决这个场景的三维数据问题，让无人机不论下雨、下雪还是在夜间，都能飞起来。

-END-

机器人系列｜①智元：想让所有机器人都接入智元的大脑

机器人系列｜②宇树科技王兴兴：机器人的身体比想象中重要

机器人系列｜③帕西尼CEO许晋诚：机器人只要能帮人干活就行，不一定要追求AGI

识别下图二维码，

即可购买《第一财经》杂志2024年12月刊