专栏名称: 赛先生

科学知识普及

人形机器⼈的奇点时刻，还有多久到来？

赛先生 · 公众号 · 科学 · 2024-10-26 17:30

正文

“科学四十人闭门耕：人工智能与机器人”讨论会

导读：

以大模型为代表的人工智能浪潮中，机器人发展和应用将面临怎样的挑战机遇？人工智能技术与机器人将如何更好地融合，以满足市场的需求？能够理解、推理、并与物理世界互动的智能机器人，将是机器人未来的发展方向吗？

围绕这些问题，我们在大湾区大学（筹）举行了“科学四十人闭门耕：人工智能与机器人”讨论会。讨论会邀请到岭南大学副校长、唐天燊机器学习讲座教授姚新，大湾区大学（筹）讲席教授、先进工程学院院长、戴盟机器人首席科学家王煜，香港中文大学（深圳）数据科学学院长聘副教授、深圳市大数据研究院大模型中心主任孙若愚共同探讨人工智能时代机器人研究的机遇、挑战，以及未来发展趋势。座谈由大湾区大学（筹）校长、北京大学讲席教授、中国科学院院士田刚致辞，大湾区大学（筹）讲席教授、大湾区高等研究院副院长、《知识分子》总编辑夏志宏主持。以下为文字实录。

知识分子 | 来源 ‍ ‍

田刚： 欢迎大家来到大湾区大学，来到科学四十人闭门耕。大湾区大学还在筹备阶段，但已经有了好的开始。我们已经引进一批国际知名学者，迎来了第三届学生，松山湖校区第一标段项目已经交付。我们在2024年度获批国家自然科学基金比去年多了一倍以上。希望大湾区大学得到社会各界的持续支持！”

科学四十人，是由我们一些科学家发起的科学交流公益项目，致力于成为中国先进的科学交流平台，围绕科学研究、技术产业和科技治理议题，积极推动国内国际的学术交流和思想碰撞。今天科学四十人闭门耕的讨论主题，是人工智能与机器人。人工智能和先进制造，都是大湾区大学非常关注的领域。我们成立了先进工程学院，由王煜教授领衔。我们还在大湾区高等研究院成立了智能计算研究中心，也与人工智能相关。期待大家碰撞出思想的火花。

大湾区大学（筹）校长、北京大学讲席教授、中国科学院院士田刚

SAIXIANSHENG

人形机器人领域的热门挑战和科学问题 ‍ ‍ ‍‍‍

15世纪到17世纪，欧洲人的船队航行在世界各地的海洋上，拜访各地的新大陆、海岛和港口，寻找新的贸易路线和贸易伙伴，刺激催生了欧洲后来的资本主义发展。这就是历史上激动人心的大航海时代，或称地理大发现时代。大航海时代最著名的例子之一，是哥伦布在1492年10月发现美洲。

夏志宏： 首先，请三位嘉宾分享一些各自领域的心得，介绍一下自己在这些领域的研究和应用。

大湾区大学（筹）讲席教授、大湾区高等研究院副院长、《知识分子》总编辑夏志宏

姚新： 在人工智能这一广阔的领域中，我专注于一个被称为演化计算的子领域。演化计算的核心思想非常朴素：自然界中许多复杂而精妙的系统，如人类的大脑，并非人为设计，而是通过演化过程形成的。既然如此复杂的系统都能通过演化产生，那么其背后一定存在某些原理，我们可以利用这些原理来设计更优秀的计算机系统。

这一思想可以追溯到图灵1950年发表在《Mind》杂志的一篇论文，该论文主要讨论了图灵测试，但图灵还用了三页篇幅阐述未来的计算机如何进行程序设计。我强烈推荐大家阅读这篇论文，它没有复杂的数学公式，却充满了启发性。当你将自己置于1950年的时代背景中，当时大多数人对计算机还一无所知，图灵能提出这样的想法，无疑是具有划时代意义的。

在演化计算的应用领域，我主要研究与优化相关的方向，包括工程优化、数字优化和组合优化。另一个重要的应用领域是演化学习，它与当前的机器学习目标一致，但在实现手段上有所不同。

岭南大学副校长、唐天燊机器学习讲座教授姚新

王煜： 四十年前，我前往美国卡内基梅隆大学攻读博士学位，开始了机器人操作领域的研究。那时，机器人还未在工业中广泛应用，但机器人的操作、移动以及数学的应用被认为是非常重要的科研工作，且颇具挑战性。波士顿动力公司的创始人Marc Raibert是我导师的朋友，他们俩都来到了卡内基梅隆大学。我便开始着手研究机器人操作。

在工业机器人领域，操作通常是指通过一个末端执行器，如双爪或工具，来进行抓取、焊接或铆接等任务。而最通用且神圣的操作器非五指灵巧手莫属。尽管经过四十年的发展，我们在硬件上取得了一定的突破，但在五指灵巧手的控制方法上仍未能实现质的飞跃，我们仍然缺乏有效的数学模型和物理模型来从工程角度彻底解决这一问题。

‍

大湾区大学（筹）讲席教授、先进工程学院院长、戴盟机器人首席科学家王煜

四十年后的今天，机器人学习、大语言模型等领域变得非常热门。在机器人操作、移动和视觉方面，我们已经解决了许多问题，并认为现在可能是我们能够看到的一套核心工具，它们能够真正地将计算方法、计算系统与硬件相结合，使机器人的操作能力达到接近人类儿童的水平。虽然不能说达到成年人的操作能力，但至少能够达到五六岁或十来岁孩子在车间或家中工作的能力。

因此，当前人形机器人领域最热门的挑战之一就是彻底解决机器人的灵巧操作问题，使人形机器人能够像非人形机器人一样，为人类带来价值。我对此抱有希望，并且认为我们实际上已经取得了相当不错的进展。

孙若愚： 我的研究重点在于优化算法和神经网络。最初，我专注于机器学习中的非凸优化算法。大约七八年前，我注意到神经网络同样是一个非凸问题，于是加入了Facebook AI Research （脸书人工智能研究所）研究神经网络。近年来，我主要研究大型模型的算法，包括训练、预训练算法、SFT （监督微调）算法，以及RLHF （强化学习人类反馈）算法。我的目标是开发更高效、更可控的大型模型算法。

最近，我专注于研究终身学习中的遗忘问题，以及如何提高强化学习的效率。在机器人和机器人智能领域，大模型也是一个非常热门的话题，它可能是未来的一个重要方向，类似于领域的“圣杯”。目前在大模型领域的一些主要讨论，如数据规模化、合成数据生成、避免模式崩溃以及持续改进、复杂推理等问题，也是机器人领域未来的重要发展方向。

香港中文大学（深圳）数据科学学院长聘副教授、深圳市大数据研究院大模型中心主任孙若愚

在大模型领域，我们关心的问题还包括如何进行复杂推理，这与 AI for math 中的符号推理有关，但也包括更困难的如何用自然语言进行推理，这些问题在大模型领域有许多解决方案。但在机器人智能领域，情况更为复杂，因为它还涉及到控制、视觉与语言的结合等问题。我认为，在机器人智能领域，对这些问题的探讨可能才刚刚开始，尽管我们看到了一线希望，但我希望这些探讨能帮助我们找到解决问题的路径。

SAIXIANSHENG

具身智能机器人的iPhone时刻快来了吗？ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍

夏志宏： 我们今天讨论的主题，和具身智能机器人相关。8月下旬刚在北京结束的2024世界机器人大会，共有27款人形机器人亮相，创下历届之最。有人说，现在是具身智能机器人的“开灯时刻”；也有人说，再过几年或许会迎来具身智能机器人的iphone时刻，人手一个。具身智能机器人和传统机器人到底有什么不一样？具身智能机器人的iphone时刻还需要多久？

姚新： 当我们讨论具身机器人或人形机器人时，需要更多考虑上下文。我的第一反应是，如果要讨论这个话题，我们应该先思考希望这些具身机器人完成什么任务。我总是觉得具身机器人是一种手段，而非目的。我们为什么要制造像人的机器人？“像人”到底意味着什么？是模仿人的思维还是动作？我认为这是两个截然不同的概念，所以我想把这个问题提出来供大家讨论。如果我们只讨论具身机器人的现象而不关注它们的目的，讨论可能会变得散漫。

我对具身机器人的兴趣由来已久，特别是考虑到控制器，或者说大模型系统，当它被嵌入到一个机器体内并具身化后，这种具身化会对人工智能系统产生什么影响？这个问题在演化计算领域已经困扰了三十年。人的形态、动物的形态，甚至机器人的形态，是否会对大脑结构或神经网络结构产生影响？如果有，那会是什么样的影响？实际上，早期的实验和论文已经表明，形态和大脑，这两者不可分。

然而，目前在这个领域，真正将机器人研究和人工智能研究结合起来的科学家相对较少。如果这两个领域分开发展，至少从理论研究的角度来看，会带来许多缺陷。人的神经网络结构受到形态的影响，例如，我们拥有对称的四肢，而如果我们是有三头六臂，神经网络结构将会完全不同。

从具身智能的角度来看，我认为应该更多关注两个方面：一是明确我们真正想要机器人做什么；二是鼓励高校思考具身智能是否引入了新的科学问题和研究问题，或者它只是一种应用。

王煜： 人形机器人或具身智能的核心价值在于它们能够作为一个机器，在不完全受控的环境中，具有通用性和广泛性，能够执行任务并为人类带来真正的价值。这种价值可能体现在信息处理上，比如处理文本和图片，这是我们目前在人工智能领域做得较多的工作。而当我们谈论具有物理载体的机器，即达到具身智能的程度时，意味着这台机器能够为你提供效益和价值，也就是能够执行实际的工作。

从最高层次的角度来看，一个重要的问题是，如何使一台机器具备这样的能力。从机器的角度来说，我们更关注的是它的能力（capability），而不是它的智能（intelligence）。在英文中，智能和能力是两个不同的概念，但在中文中，人工智能这个词似乎将两者混为一谈。目前，尤其是大型语言模型和神经网络，被认为是最有前途的工具，它们使机器能够通过感知、与人类的交互来理解环境、认识环境、理解指令，并最终产生行动规则、轨迹，甚至操作和控制，完成任务。从实际和经济价值的角度来看，这是我们必须实现的目标。

另外，涉及到更深层次的问题，如果一台机器具备了一定的表现形式和能力，那么它将如何影响上层的神经系统、计算系统、网络系统、神经网络系统？这与人类的发展有关。我最近发现了一个非常有趣的现象：如果我们研究人类，尤其是操作能力的发展，语言学家会将人类的操作能力和语言能力放在同一个时间轴上进行比较。你会发现，当人类的操作能力提高时，语言、语法和词汇的丰富性也随之提高。我们不知道这是否是偶然的，但操作能力确实会刺激大脑的发展，因为随着你的需求越来越高，它会刺激神经网络的形成。

操作能力还会影响整体神经系统的部署。例如，当你在家里打鸡蛋、做饭、叠衣服时，你的大脑几乎不需要思考，你甚至可以在炒鸡蛋的同时思考抽象的数学公式。这意味着我们的许多信息处理是在手指、手掌、手臂，甚至在脊椎神经以下就已经完成的。只有当环境变得复杂或紧急时，大脑的神经才开始介入。因此，随着操作能力的提高，你的神经系统需要适应，以实现最高效、最节能的生存方式。

这些是自然生物系统所做出的适应，而我们现在在人工系统中也开始提出这样的问题。为什么我们需要一个大型的深度神经网络和端到端的计算，需要如此巨大的算力？例如，我去抓一个鸡蛋，是否需要从头到尾都进行这样的计算？这是最不经济的。因此，这里面有许多非常有趣的问题值得探讨。

孙若愚： 在具身智能科学问题的层面，可以从多个角度探讨。从大模型的角度，一个问题是：应该仅仅用语言模型作为一个接口来控制机器人，还是开发“机器人大模型”？这涉及到大模型领域目前讨论热烈的一个话题：世界模型的存在与否。有人认为，仅依靠语言或书本知识学习，是无法与现实世界相联系的。这里就涉及到grounding的概念，即如何将抽象的数学模型或表示与现实世界中的表示联系起来。如果能够实现这种联系，那么在开发机器人和具身智能时，只需要确保接口的正确性就好了。这是一种观点。

另外一种观点是，仅靠语言学习不够，还需要学习视觉世界模型。最近讨论的一个例子是Sora，它是否有世界模型。主流观点认为，即使Sora有世界模型，也是非常初级的。如果是这样的话，那么对物理世界的建模如何实现？至于语言模型，它依赖于大量的数据，比如10万亿的数据。但在视觉模型方面，可能需要10万亿的视频数据。这些数据从哪里来？这是为什么许多公司都在进行视频数据生成，走的是视觉大模型的路线。这是技术上我看到的不同的可能性。

在具身智能应用层面，一个重要的问题是具身智能到底应该做什么？具身智能本身只是一个形态，而不是一个目标。目标通常可以分为To B和To C两种。To B可能与智能制造相关，To C是家用服务。我们在新闻中看到的大部分应用是家用服务，比如叠衣服和斯坦福的炒菜机器人。从技术角度来看，一个重要的挑战是泛化的，即在一个场景中叠好衣服之后，是否能在另一个场景中叠好衣服。机器人做服务的挑战在于能否在一万个不同的场景下都能提供服务。

SAIXIANSHENG

智能发展的路径可能并非只有一条，

也不应该只有一条

夏志宏： 王煜老师曾经用一个非常形象的比喻来描述大模型与人工智能的关系：大模型就像是大脑，而机器人的整体结构，包括人体机器人，要比大脑复杂得多。我们可能都有这样的体会，有时候我们心里明白很多事情，却无法表达出来，或者不知道如何行动。就像一个伟大的小说家，他可能充满了创作的灵感和冲动，却无法将这些想法转化为文字。机器人也是如此，即使它的“大脑”非常发达，也需要“小脑”或者更细分的“中脑”来协调和控制动作。

王煜老师提出的另一个有趣的观点是，我们现在的模型似乎是先在机器上计算好，然后再将这些计算结果装入机器人，让机器人执行我们想要它完成的任务，但人类并不是这样工作的。以打网球为例，当你看到网球飞来时，你需要迅速估计球的位置和轨迹。对于经验丰富的网球选手来说，他们在对方击球的瞬间就已经做好了准备，这时起作用的不再是大脑，而是中脑和小脑。王老师能给我们进一步阐释一下有关大脑、中脑和小脑的看法吗？

王煜： 在机器人领域，尤其是对于我们这些机器人创业公司来说，一个核心问题是如何将智能赋予机器人，使其能够执行任务并吸引投资，最终在市场上取得成功。这是一个充满挑战的技术问题，不同的人有不同的思路。主要分为两大派别：一派主张使用大型语言模型和世界模型，将所有可能发生的物理现象、语言现象和视觉信息融合到一个超级大模型中，通过端对端的方式处理问题。这种观点在年轻的AI研究者和一些顶尖教授中较为流行，尤其是在清华、北大等学府。

另一派，像我们这种有白头发的，因为做过机器人，我们试图把机器人放到车间里，也试图把机器人放在家里洗碗，我们知道有多难，所以，我们是认为智能应该从基础做起，逐步扩展到更广泛的应用。要让机器人在通用环境中与人类交互、吸收信息、感知和处理，就必须具备智能。因此，大型语言模型等工具变得至关重要。

例如，如果家里有服务机器人，当主人说“我饿了”，机器人需要考虑很多事情：家里有没有冰箱？冰箱里有什么食物？主人喜欢吃什么？等等。但最终，当机器人需要拿出盘子时，这就涉及到它的具体技能。我现在正在推广一个概念，叫做“具身技能”，这是指机器人能够执行具体任务的能力，比如系鞋带、打扣子或拧螺丝。这些技能通常是通过学习和练习获得的，而不是通过大脑的直接参与。

另一个重要的点是，当我们进入一个新的环境，比如成为一名熟练工人，我们通常会接受训练，学会特定的技能。这些技能是我们潜在的能力，而不是依赖于外部的设计模型。现在的关键是如何找到一种人工智能学习方法，让机器人能够发挥这些潜力，学会并执行这些技能。当然，机器人的硬件也必须具备相应的功能，比如精确的手指控制、丰富的触觉感知以及眼手协调能力。

投资者通常希望看到机器人能够解决问题并展现出能力，但他们往往不理解大脑、中脑、小脑等复杂概念。他们更倾向于看到大型世界模型，做得很好，能够解决问题。尽管存在争议，但我认为，这两条路子一直发展下去，终究会有一条成功，事情能够有个结论的。

夏志宏： 孙老师能否分享一下关于如何通过机器学习和深度学习算法，为已经制造好的机器人提供更高级别的智能赋能？

孙若愚： 一个方向是把自我学习算法引入到机器人中。但最近我看到一个有趣的问题：即使机器人或模型可以自我学习，我们是否应该给予它们这样的机会？有人甚至建议通过立法来禁止模型的自我进化。这背后的原因是对不可控性的担忧。现在，安全人工智能是一个非常热门的话题。即使是语言模型，我们如何能确保它在不断学习后不会说出不恰当的话？如果一个机器人会切水果，我们如何确保它不会去切割墙壁或者伤害人类？在通过深度学习赋予机器人更多能力之前，我们或许要解决安全控制问题。

夏志宏： 姚老师，是否可以通过演化算法让已经预训练好的机器人进一步演化，从而赋予它们更多的能力？

姚新： 演化算法的研究者们认为，智能的发展路径可能并非只有一条，而且也不应该只有一条。目前的大模型基本上是基于这样一种理念：尽可能收集全球的数据，如果数据收集得足够全面，或者即使不全面，也能通过自我生成数据来构建一个庞大的模型，这个模型如此之大，包含了你能想到的一切，从而解决问题。但演化计算的研究者们往往认为这种理念背后隐含了一个假设，即世界是静态的。然而，在一个动态且充满不确定性的世界中，我们如何能保证收集到的数据是全面和准确的呢？

演化计算的研究者们更多关注于如何处理这种不确定性和动态性。他们认为，定义问题时本身就存在固有的不确定性，这不仅仅是环境的不确定性。打一个不恰当的例子，在机器学习中，许多研究者花费大量精力在设计损失函数上，一旦损失函数确定，数学家们就会寻找最优的解决方案。但问题是，一旦损失函数确定，它就不能在机器学习过程中改变。然而，在现实生活中，许多问题的目标是难以形式化的，而且损失函数在实际学习过程中往往是会变化的。

因此，演化计算的研究者们一直在思考如何应对这些不确定性和动态性，这可能是一个有趣的研究课题。大家猜测，生物进化过程中大脑分区的出现，可能就是为了应对时间上的不确定性和动态性，例如快速反应和慢速反应的区分。当然，这些目前还没有定论。

SAIXIANSHENG

为什么机器人手不如脚，

操作不如移动？ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍

夏志宏： 我们从小就对机器人充满了好奇，那时计算机还没有智能，我们看到机器狗或机器猫能够走路就感到非常激动。现在，机器人走路的技术已经相当成熟，但我想问的是，为什么我们现在能够让机器人走路走得很好，却难以让它们的手像人类的手那样灵活运作呢？

姚新： 如果我们去伦敦的科学博物馆，会发现一张图，它展示了人脑中各个器官，特别是运动器官如手和脚的映射区域。在这张图中，手部在脑区中占据了一个巨大的区域。从神经元的数量和脑区面积来看，控制手的部分显然需要更多的脑部资源，这是一个观察到的现象。至于为什么手的控制会如此复杂，可能需要生物学家提供更多的解释。

我读过的资料表明，手的控制不仅需要更多的自由度，而且手的控制能力与语言能力的发展确实存在相关性。目前尚不清楚这两者之间是否存在因果关系，但相关性是确实存在的。这种相关性背后的原因可能是模型研究者需要进一步探究的课题。

如果这是真的，那么我们可以推断，控制脚的任务在某种程度上比控制手要简单，至少从脑区活动的角度来看是这样。这也许能解释为什么目前控制脚部的机器人技术相对容易一些，而控制手部则更具挑战性。

以前我和一位机器人研究者闲聊时，我开玩笑说，如果你想一举成名，就做一个能控制筷子夹取花生的机械手。我说，如果你能做到这一点，你一定会登上头版头条，因为用机械手控制筷子夹取花生涉及到视觉、推理、触觉等多种感觉的整合，这是一个巨大的挑战。如果你能将这些控制整合到一个系统中，那将是一项了不起的成就。

王煜： 姚老师提到的使用筷子夹花生的例子，是一个非常典范的机器人操作任务。夏老师的问题实际上触及了机械工程专业的核心问题，即如何控制一个具有动力学特性的机械系统，使其达到预期表现。在机器人领域，主要的功能分为移动和操作两大类。移动功能的发展相对迅速，而操作功能的进展则相对缓慢。

从本质上讲，移动涉及到的是机器人系统本身状态的改变，例如位置、速度和加速度，而不直接改变其环境。尽管机器人在与环境的交互中可能会遇到不确定性和干扰，如地面的不平整或冰面，但其主要任务是控制自身的稳定性。而操作则完全不同，它要求机器人通过与环境的互动，特别是使用工具，如筷子，来改变环境中的物体状态，例如夹起花生或拧紧螺丝。这涉及到机器人、工具和目标物体三者之间的复杂互动。

对于移动机器人而言，目标函数通常很明确：保持机器人的重心稳定，控制其姿态，以及达到预定的位置和加速度。所有这些目标都可以被量化和描述，从而确保机器人不会摔倒或偏离路径。强化学习作为一种强大的工具，能够处理这些问题，而底层的模型预测控制则为机器人提供了精确的动作执行。在硬件方面，传感器和执行器的发展也取得了显著进步，使得机器人能够以每秒千赫甚至万赫的速度接收和处理反馈信息。这些技术的应用使得机器人能够执行复杂的动作，如翻跟头或跳跃，而不会失去平衡。

然而，在机器人操作领域，尤其是涉及与环境互动的任务时，问题就变得更加复杂。硬件的发展相对滞后，而且最棘手的挑战在于如何定义一个合适的目标函数来处理环境的不确定性和干扰。例如，对于一个机器人来说，要把扣子扣上的任务看似简单，但在学习过程中，机器人很难从连续的尝试和错误中学习到有效的反馈，因为在整个过程中，除非扣子完全扣上，否则机器人获得的反馈始终是失败的，这使得学习过程变得非常漫长和艰难。因此，如何设计一个能够有效指导机器人学习复杂操作技能的目标函数，是当前机器人研究者面临的一个重大挑战。

除了强化学习，还有模仿学习、遥控学习，甚至有些研究者提出了“想象学习”，通过想象来学习完成任务。如果能够开发出有效的学习方法，相信机器人的操作能力将能够与移动能力同步发展，这正是人工智能领域的专家应该关注的问题。

孙若愚： Yann LeCun （杨立昆）说，比起强化学习他更喜欢模型预测控制，认为强化学习在学习新任务时需要大量尝试、效率较低，而模型预测控制则提供了更高效的解决方案。

我最近思考的一个问题是手的操作，抓取任务的复杂性令人惊讶。尽管有很多关于抓取的研究，但这个问题仍未完全解决。抓取的困难在于要处理的物体形状、材质和力度控制的多样性，即使是机器人手的设计也存在多种形态，这使得抓取任务的泛化能力成为一个关键挑战。人类在生活中并未见过所有要抓取的物体，但看到新的物体都可以抓。这个泛化能力是从哪里来的？泛化是机器学习最困难的问题之一，因为实话讲，我们也不完全清楚大模型的泛化能力是从哪里来的。

机器学习大佬Sanjeev Arora去年提出一个“skill mix”的概念，强调大模型具备学习技能和组合技能的能力，在抓取任务中怎么学习技能的组合还不清楚，但我们仍然对底层机制了解不够。结合数据与模型预测控制的方法，或许能为未来的研究提供更高效的解决方案。

SAIXIANSHENG

机器学习能产生真正的抽象思维吗？

夏志宏： 在机器学习领域，我们把所有我们知道的文字信息都放入计算机中，让机器通过概率论来学习。比如，我们在ChatGPT中输入一句话后，它会计算接下来最可能的语句。但是，这个概率的概念与人类智能，特别是创新和灵感的产生，似乎是相反的。我们通常认为一个人有创造力是因为他做了一些小概率的事情，比如，爱因斯坦提出的相对论在他那个时代就是一个小概率事件。因此，我们经常讨论智能，如何找到那些小概率但具有重大影响的事情。

到目前为止，我们看到的机器学习都是关于大概率事件的，这些是大多数人都能想到的事情，只是我们的容量没有那么大而已。我想知道，三位对这个有什么看法？我们如何让机器学习能够挖掘出这种灵感，找到那些大家都想不到的事情？

姚新： 在之前的讨论中，我们几位同事曾经聊到，现在的机器学习在某种程度上类似于数学中的归纳法。通过观察大量数据，我们可以归纳出一些规律，但这些规律并不是真正的证明，它们可能正确也可能错误。因此，机器学习的目的并不是为了回答那些需要创造性思维的问题，而是基于它所见过的海量数据，预测未来可能遇到的情况与之前数据的概率关系。

目前，机器学习还无法产生真正的抽象思维。虽然有些研究声称他们的模型能够进行抽象，但这让我想到了80、90年代的“中文房间”哲学问题。从外部观察，人们可能会根据自己的感知认为机器具有或不具有某些能力。我认为，抽象能力和什么样的抽象更像是现实生活中的真理，可能更接近于你提到的小概率事件。现在，基于大数据和大算力的大型模型并不适合用来处理这类问题。如果你非要让它们做这样的事情，可能需要寻找其他的方法。

夏志宏： 是否有可能改进现有的机器学习方式，使其不仅仅局限于寻找高概率事件，或者在关注相关性的同时，也能够发现一些不那么显而易见的、更具创新性的解决方案？

姚新： 要实现这样的目标，我们需要提出不同的研究问题，这些问题应该与目前机器学习领域所关注的问题有所区别，走的路子也会有所不同。我不能确切地说出应该是什么，但我可以确定的是，方向是不一样的。

夏志宏： 我的困惑在于人们对于智能的理解。归纳可以算智能吗？

姚新： 我认为这个问题既涉及到科学层面，也关系到大众的认知。通常，当别人提出了我没有想到的正确想法时，我会很自然地认为那个人非常聪明，这是一种本能的反应。但仔细思考，这种情况可能并不完全算是智能的体现，有时候只是因为我们没有看到而已。在我看来，更有价值的智能应该能够从观察中提炼出抽象的概念，并且这些概念能够与现实世界的真理相符合。

夏志宏： 所以原创一般是机器学习学不到的，对吧？

王煜： 这个问题实际上是人工智能领域的先驱们曾经辩论过的。最著名的一次讨论发生在1968年的达特茅斯会议上，当时许多人工智能的奠基人都出席了。在那个会议上，有人提出了“专家系统” （expert system）、“知识系统” （knowledge system）和“符号化” （symbolism）等不同的称呼。最终，是麻省理工学院的马文·明斯基（Marvin Minsky）提出了“人工智能” （Artificial Intelligence）这个术语。尽管他因为这个选择受到了一些同事的批评，认为这个词不够准确，但这个术语最终还是被广泛接受并流传开来。

我认为，人工智能的本质在于其归纳能力，即能够从已有的数据中提取模式，并据此预测接下来可能发生的事情。然而，人工智能缺乏创造力，因为它无法脱离原始数据。

我特别不喜欢Sora生成的图片。我认为，当我们走进大自然，去爬山、欣赏风景时，我们看到的是真正有创造力的自然之美，而且自然是多变的。而Sora生成的图片，尽管在视觉上可能很吸引人，但它们并没有真正的创新意义。我认为这是一个非常本质的问题，因为目前的神经网络确实存在很大的局限性，它们无法达到真正的创新水平。

孙若愚： 这个问题很数学，我也用数学的方式来回应。机器学习通常是在学习大概率事件，但是当我们提出一个正确的问题时，在这个问题的条件下，小概率事件就可能变成了大概率事件。

举个例子，以历史上的数学家为例，他们有时会提出一些划时代的想法，比如黎曼的那次著名的关于几何的演讲。如果我们给人工智能一个任务，只是简单地要求它做一个演讲，那么它给出的很可能是一个平庸的演讲。但是，如果我们提出一个具体而详细的问题，比如要求它给出一个在过去100年里没有人想过的、能够开创数学历史新篇章的、包含一些全新想法的演讲，当限定词足够长，这个小概率事件——即产生创新的想法——就可能成为大概率事件。

夏志宏： 这就是“提示” （prompt）在人工智能中的应用。在化学制药中，我们有无数的化学反应，而目标是达到一个特定的结果。如果你已经知道你想要的结果是什么，人工智能就能帮助你找到那些原本可能是小概率的化学反应路径。只要你的提示足够精确和恰当，人工智能就能够在这个过程中发挥作用，实现一些有价值的成果。

王煜： 假设我给出一个具体的提示，我说：“现在我们有了量子力学，这是一个非常成熟的理论，对吧？同时，我们还有爱因斯坦的相对论，你也都已经理解了。爱因斯坦花了一生的时间试图将这两个理论统一起来。那么，请告诉我，如果将这两个理论结合起来，会得到什么样的结果？”

夏志宏： 这可能需要真正的智能，而不是人工智能。即便我们优化了提示，计算机本身仍然需要知道如何去探索。如果改变了提示，指向了一个计算机之前没有接触过的领域，那么它毫无路径。人工智能在制药领域的应用，它实际上是知道一个路径的。它知道这个小概率事件，它只不过是在验证，所有的小概率事件中哪一个能够通向最后的成功。这就引出了一个有趣的问题：我们人类是群体动物，喜欢在一起讨论，但是你能想象未来的机器人在一起，相互碰撞，相互讨论，它们能够产生新的想法吗？

孙若愚： 在7月份的 ICML会议上，有一篇被评为最佳论文的文章，它探讨了通过大胆的辩论可能带来什么结果。虽然这样的辩论是否能够产生新的想法还有待观察，但至少这个话题已经开始被人们讨论了。

姚新： 关于提示（prompt），如果我给出足够智能的提示，那么即使大模型也能表现出智能。那也不是大模型有智能，而是我的提示有智能。

至于多个智能体之间的交互，我认为完全有可能产生一个解决方案，这个方案不属于这些智能体原有的定义域。无论如何，无论一个大型模型有多大，它总是有一个特定的领域或定义域。如果智能体来自不同的领域，并且它们进行辩论，那么肯定会存在一个不在它们共同交集内的区间。在这个区间内，有可能产生新的想法，我认为这种概率是存在的。

有时候可能会出现一些单个机器人无法想到的创新想法。这就引出了一个稍微偏向哲学的问题，类似于“中文房间”悖论，即需要有一个“上帝”般的存在来判断这些想法是否有用，因为智能往往与实用性或是否符合物理规律有关。这种判断目前智能体自身还无法做到，通常需要一个第三方，有时我们可能会用“上帝”这个带引号的词来形容，但实际上指的是人类。

SAIXIANSHENG

幽默和情感，是人类的特权吗？

夏志宏： 在人工智能领域，我们常常希望它能够模仿人类的智能。最近，我看到了一篇有趣的文章，附带了一张照片，照片中奥巴马总统在背后偷偷踩在一个官员的体重秤上，使得官员的体重显示增加，而奥巴马和他的随行人员都在开心地笑。这张照片非常有趣，因为它涉及到了多个社会层面的问题，比如人们对体重的敏感，以及一个国家领导人做出的顽皮举动。

当这样的照片被输入到人工智能系统中时，机器是否能够感受到其中的幽默，是否能够识别出幽默的元素，这是一个值得探讨的问题。以前，我一直以为这是人类独有的高级感知能力，不是机器人能够体会到的。但最近，我听说ChatGPT 4能够分析这张照片，并指出了所有的笑点，包括官员不希望体重增加、奥巴马偷偷增加重量的行为，以及官员们会心的笑容。这让我感到非常惊讶，我之前没有预料到现有的大模型能够达到这样的效果。

这引发了一个问题，即人工智能在情感理解和幽默感方面是否会逐渐接近人类水平。它们是否可以在未来成为陪伴机器人？

姚新： 如果我们沿着刚才讨论的思路，将世间所有的数据，包括网络上的、书本中的各种信息都整合进人工智能系统，那么很有可能，这样的机器在理解和表达情感方面会越来越接近人类，因为这些数据中包含了丰富的情感信息。

但是，大脑负责处理很多事情。我在《科学美国人》杂志上读到的一篇关于演化生物学的文章，文章提到人类的智慧是一种“绝望的解决方案”。为什么这么说呢？因为在生物界中，人类在很多方面并不占优势，比如我们跑不过豹、视力不如鹰、嗅觉不如狗。在现实生活的竞争中，人类本来是无法生存下去的，智慧是被逼出来的。换句话说，智能是为了生存而进化出来的，首先你得活下来，其他的都是次要的。

文章后面提出了一些假设，认为大脑的某些结构和本能反应是硬编码的，而非通过推理得出的。例如，看到深渊就会本能地避免跳下去，这不是通过学习得来的。为什么？因为那些尝试学习的人都已经不在了，只有那些本能地避开危险的人活了下来。

所以，当我们考虑人类智能的时候，可能需要考虑进化的历史，不要把一些简单的本能反应，那些已经固化的行为，误认为是需要通过数据学习才能获得的。遗传信息不仅包括了个体出生前的大量数据，这些数据已经内置于我们的系统之中，而且还涉及到演化过程中的大数据。

因此，我认为学习应该包含两个阶段：一个是在个体一代内的学习，这与当前机器学习的过程非常相似；另一个是跨越多代的长期学习，这更像是演化的过程。在长时间跨度上的学习和短时间内通过大数据的学习，这两个维度如果都能被考虑进去，对于您刚才提出的问题，我们可能会得到不同的答案。

王煜： GPT的能力确实非常了不起，而ChatGPT 4.0的成功率有了显著提升，这部分原因是人为干预进行了大量修正。与ChatGPT 3.0相比，4.0版本中加入了更多人工来优化答案。

从生物学角度来看，智能的确是一个有趣的话题。以语言为例，麻省理工学院教授诺姆·乔姆斯基（Noam Chomsky）第一个提出语言能力可能是遗传的。他的观点最初是，语言能力是天生的，而不仅仅是后天学习的。现在，这一理论已经得到了语言学家的广泛认可。

一些极端的例子是，有些孩子在很小的时候就被剥夺了说话的权利，比如被绑架后锁在柜子里，没有人和他们说话。当他们在16岁左右被救出时，他们已经无法学会说话了，无论怎么教都不行。这些不幸的例子证实，语言能力有一部分是天生的，但如果不通过后天的学习，语言能力也无法完全发展。例如，如果孩子开始学习语言的时间较晚，他们的发展速度可能会慢一些，但如果他们在早期就开始学习，就能够掌握语言。

技能的发展也是，我们能够操作各种工具和设备，这部分能力是天生还是遗传？这一点很难证明，因为还没有哪个孩子被剥夺操作能力的研究案例。当然，这样的实验太残酷了，我们也不会进行这样的实验。

我们也看到，现在的家长们都希望孩子能尽早学习各种技能。自然，孩子们从小学习的效果是显而易见的。孩子们在3岁时就能做这个、能干那个，这些都是后天学习的结果。但是，如果没有天生的遗传基础，这些复杂的系统和技能是无法通过学习获得的。

孙若愚： 许多能力确实是遗传的，存在预训练（pretrained）和训练（trained）两个阶段。经过几千年的进化，我们在出生前就经历了一个漫长的预训练过程，大量的数据被整合学习，然后植入我们的基因中。有一本书名为《白板》，它专门讨论了这个问题，也探讨了乔姆斯基的观点，他们认为人出生时并非一张白纸。

关于情感的问题，我隐约有个感觉，一些简单的工作，比如系扣子或者生产线上那些，其实可能更晚实现自动化。相反，情感陪伴在机器人领域可能会更早到来。大模型的情商其实是不错的，不仅仅是幽默感，包括情境感知能力、对员工心理的分析、情绪陪伴，都是不错的。

例如，我经常咨询ChatGPT 关于同事争论的问题，让 chatGPT 分析人们对话背后的心理是什么；然后把回答截图发给同事，同事经常会表示它的分析很准。情感智能，或者说情感陪伴的能力，可能会更早实现，但前提是要确保安全性。可能大家记得去年的例子，有人跟ChatGPT聊天后情绪崩溃了。如果安全性控制得当，情感陪伴是有可能实现的。

特别是在当下这个时代，很多人往往感到孤独，需要陪伴。有个 Z世代的年轻人跟我说，他宁愿在网上花钱跟ChatGPT聊天，也不愿意在现实生活中谈恋爱，他认为ChatGPT比真人更好，有求必应，什么都懂。所以，情感陪伴可能比我们预期的要来得更早。

夏志宏： 我以前坚信人类拥有灵魂，而人工智能永远无法具备这一点。但随着对心理学问题的深入了解，我逐渐意识到，许多心理问题实际上是由于大脑中的化学物质失衡引起的。给予适当的药物治疗后，这些心理问题往往能得到缓解。这让我开始怀疑，人类的情感，包括幽默感，是否也是化学物质作用的结果，而并非灵魂的体现。这些想法让我特别失望，但我还是愿意相信灵魂存在。

SAIXIANSHENG

提什么样的问题，

和为什么要提这个问题？

夏志宏： 我们在大湾区大学讨论这些问题，是因为大学希望在人才培养方面，特别是在未来的人工智能和机器人领域有所建树。我想请大家探讨一下，我们应该朝着哪个方向、哪些领域发展？

姚新： 我希望我的研究生学会三件事：首先是学习新知识，其次是学会如何提出问题。

我经常半开玩笑说，改革开放已经50年了，我们为什么还在解决别人提出的问题？这可能意味着我们在提出问题的能力上还有所欠缺。现在大家都意识到了这一点，我们也开始主办会议，提出自己的问题。但有时候，我们提出的问题似乎没有人跟着解。再难的问题，300年前的问题人家吭哧吭哧在解决。那我们要问，为什么300年前的问题就有后人帮他解，我们提的问题就没人理呢？

所以，在学知识、提问题之外，要学会知道提什么样的问题，和为什么要提这个问题，最后一点可能最重要。

人工智能领域也是如此。大部分人都在做大模型，但是我做演化计算。你做大模型，也一天花十分钟想想演化计算，没准演化计算也有好处。多问几个问题就会发现，条条大路通罗马，人工智能不是只有一条路可以走。

王煜： 在人工智能和机器人技术迅速发展的大潮中，我的体会是，我们做工程教育更要推动学科交叉。现代科技发展表明，硬件的重要性日益凸显，并且发展迅猛。与此同时，软件、人工智能工具以及计算技术等都是相辅相成的。硬、软、信息和控制已经紧密结合在一起。如果我们仅仅局限于传统工程教育的狭窄领域，比如我1982年学习机械制造时所学的车铣刨磨，就会显得非常局限。

因此，交叉学科和跨学科的教育尤为重要，特别是对于工程学科的学生。还要有一个很实在的工程应用落脚点，即我们是否能够将所学最终转化为具有商业价值或技术价值的产品。这就意味着，创新和创业精神也应该成为我们教育的一部分。

孙若愚： 大学教育应该将新思想与基础领域结合起来。在人工智能领域，许多人的不足或局限性在于他们缺乏扎实的基础知识。例如，人工智能领域的领军人物熟悉模型预测控制，但如果问现在的人工智能研究者，很多人可能并没有深入学习过优化算法和线性代数等基础课程，当前教育非常需要将前沿技术与基础知识融合。

夏志宏： 大学在进行研究的同时，也希望能够将研究成果转化为实际应用，这一点对于大湾区大学来说尤为重要。我们建立了研究院，希望通过这个平台将基础研究成果转化为具有实际价值的产品，进而为社会经济发展做出贡献。我相信姚新老师在岭南大学也有类似的目标，作为科研副校长，关注全国范围内的成果转化的问题。请教各位，目前在机器人和人工智能领域的产业发展方面，有哪些值得关注的方向？

姚新： 在知识转移和应用方面，实际上一直存在两个方向或两个群体的努力。一个群体关注的是社会面临的重大挑战，他们会组织团队针对这些挑战进行攻关，这样的跨学科合作自然就会形成。这个群体有着非常明确的问题导向；另一个群体在大学里也很常见，他们致力于提升自己的科研成果，再找什么地方可以落地。我觉得这两种途径都很必要，如果只聚焦一类问题，有时可能会损害发散性思维。

但第二种方法有其局限性，可能会导致研究者陷入“拿着锤子找钉子”的陷阱，而在学术界，每当有新的潮流出现时，往往更倾向于第二种。例如，人工智能在解决社会问题方面的作用往往是模糊的。虽然我们可以看到聊天、图片挺好玩的，但提高就业率或是解决其他社会问题方面的实际效果却不太明确。将研究方向推向实际应用，比纯粹的研究工作要困难得多。

以岭南大学为例，作为科研副校长，我可能会更倾向于第一种方法，因为岭南大学传统上是一所博雅大学，强调人文关怀和为社会服务的教育。我们培养的人才是要能够识别社会问题，并为解决这些重大问题做出贡献。因此，无论是进行研究、创新还是知识传递，我们都是从这个角度出发的。

至于具体的社会问题，比如社会不平等、贫困，或是人工智能带来的安全性问题，一旦我们确定了这些挑战，研究和产学研合作就会围绕这些问题展开。这至少是岭南大学常用的方法。

夏志宏： 王煜老师的团队在成果转化和创新方面已经取得了很多成就。在整个大湾区，我们拥有哪些优势？还有哪些方面需要改进？

王煜： 大湾区拥有雄厚的工业基础，这为发展硬科技提供了相当好的条件。特别是对于希望将基础技术转化为产品的技术持有者来说，这里的供应链非常强大，可以快速进行样机制作和迭代。与欧美相比，深圳、东莞等地在硬科技领域的迭代能力和条件无疑是世界上最好的。

如果教师有创新的想法和技术，并且愿意尝试将其商业化，他们可以利用大湾区的环境碰一碰、试一试。然而，创业是一个充满挑战的过程，虽然我们可以鼓励学生和教师去尝试，但也需要建立一定的支持体系。例如，学校可以提供辅导、培训和科创训练班，甚至成立科创学院，帮助大家了解知识转移和科技创新的过程，以及可能遇到的麻烦事甚至大坑。

这些准备工作非常重要，否则盲目引导教师和学生创业可能会导致他们陷入困境。我自己的创业经历就是从盲目尝试开始的。那时候，国内只要敢于尝试，就有机会成功，但同时也可能会遇到很多坑，要再想办法让别人把你捞出来。现在，随着社会的发展和规范化，相关的体制和系统正在逐步建立，这将减少失败的机会。但我们仍然需要让大家认识到这一点，并提供必要的支持。

目前，高校普遍认识到了这一环节的重要性，但并非每个人都能充分理解。最不理想的情况是，每位教师都有一个锤子，天天出去说，我要找钉子、找钉子、找钉子。这种方法不是最有效的，对学生的成长也不利。

夏志宏： 我注意到孙若愚老师在算法研究的同时，也涉足了许多应用领域，特别是在通信领域中人工智能和算法的应用。孙老师是否在这方面有进一步的创新考虑？

孙若愚： 在过去一两年中，我一直在探索人工智能在各类行业中的应用，也和一些投资人谈了融资。关键的问题是，当前人工智能够解决哪些具体的行业问题。港中深和深圳市大数据研究院一直在探索大模型能解决哪些实际问题，我们已经发布了医疗大模型、阿拉伯语大模型，也在开发法律领域的大模型。

但还是那个问题，发布这些模型后，我们需要问它们解决了行业中的哪个痛点。在融资过程中，投资者也经常问这个问题。当我们讨论具身智能时，不仅仅要与投资者谈论大模型，还要讨论能够为生产制造或服务的哪个部分提供解决方案。

目前，我认为在具身智能领域存在机会，但可能还需要两到三年的时间来克服技术上的挑战、寻找需求以及确保锤子（技术解决方案）与钉子（实际需求）相匹配。

夏志宏： 三位嘉宾还有什么要补充的？

姚新： 在讨论研究，无论是人工智能还是具身机器人等各个领域时，我们往往还带有学者的个人烙印。这种烙印主要体现在倾向于从自己的专业领域出发，思考能够解决哪些科学问题，而较少从问题本身出发。因此，我想呼吁的是，在开始研究时，应该首先明确想要解决的是哪个科学问题，并围绕这个问题进行深入讨论，这样会更有针对性和意义。否则，讨论可能会变得过于分散。

王煜： 在8月机器人大会上，共有27款人形机器人展出。我们的戴蒙机器人没有参加展出，如果参加，可能会成为第28个，但考虑到需要支付费用，我们认为时机尚未成熟。我想强调的是，科技发展日新月异，一波接一波的浪潮不断涌现。对我们来说，更重要的是培养批判性思维，能够深入理解和判断，而不是仅仅依赖于自媒体的自我宣传。我们公司自己发布的自媒体内容，当然都是说我们多好多好了。

对于年轻人来说，非常重要的是能够自我把握，具备批判性地看待和思考问题的能力，这样才能做出正确的判断，决定自己下一步应该做什么。否则，有时可能会被误导，走向不太理想的方向。

人形机器⼈的奇点时刻，还有多久到来？

正文

知识分子 | 来源 ‍ ‍

请到「今天看啥」查看全文