在 20 世纪后半期,物理学沿着前半世纪的发现继续发展。量子力学理论为我们揭示了宇宙的奥秘,从而催生了大量实用应用。
随后,物理学开始应对另一个重大挑战——复杂性。这包括自然系统的复杂性,例如生态系统和气候,也包括人类制造的系统,如经济市场和交通系统。
人类大脑及其所处的社会系统是最终的复杂系统。
实际上,大脑的复杂性激发了人工神经网络的发展,目的是通过数据学习来解决问题,就像我们通过经验学习一样。
这种“深度学习”自此对科学作出了巨大贡献,并在本月获得了诺贝尔物理学奖和化学奖的认可。
如今,我们正处于一个由大数据和超大规模计算驱动的科学新时代的起点。未来几十年,深度学习将对科学产生何种影响?
我的新书
《ChatGPT与人工智能的未来:深度语言革命》
(ChatGPT and the Future of AI: The Deep Language Revolution)回顾了大语言模型的起源,并探讨了将塑造下一代人工智能的研究工作。(我还会在我的 Substack 专栏《Brains and AI》中继续讨论这个话题。)本书节选部分描述了语言的演变如何影响大语言模型,并探讨了神经科学与人工智能的概念如何相互交融,推动这两个领域的前进。
我曾参加过一场在洛克菲勒大学举办的研讨会,其中一场小组讨论涉及语言及其起源。两位在各自领域内享有盛名的学者对语言的观点截然相反:诺姆·乔姆斯基(Noam Chomsky)认为,
既然语言是天生的,那么一定存在一个独特演化于人类的“语言器官”
。悉尼·布伦纳(Sydney Brenner)则持更生物学的观点,认为演化会找到非直观的解决方案。布伦纳以他的机智闻名,他举了个例子:
与其寻找一种“语言基因”,不如考虑可能存在一种“语言抑制基因”
,演化在猩猩中保留了这种基因,但在人类中将其阻断。
鸟类学习鸣唱的过程和人类获得语言的方式之间有一些相似之处。洛克菲勒大学的埃里希·贾维斯(Erich Jarvis)试图理解能学习复杂歌曲的鸟类(如金丝雀和椋鸟)和无法学习歌曲的其他鸟类之间的大脑差异。他对多种鸟类的基因组进行了测序,发现了两者之间的差异。他特别发现了一个基因,
该基因控制从高声中枢(HVc)向下层运动区域的投射发育
,而这些下层区域负责驱动鸣管肌肉的控制。在发育过程中,这个基因通过抑制产生歌曲所需的直接投射来发挥作用。在鸣禽的高声区,这个基因没有表达,这使得投射能够形成,从而实现对鸟鸣的快速控制。令人惊讶的是,
他发现在人类中相同的基因在喉部运动皮层中被“沉默”了
,而这个区域会向控制声带的运动区域投射;但在黑猩猩中,该基因并未被沉默。悉尼·布伦纳不仅机智,而且判断正确!
同样重要的是对声道的改造,使其能够快速调节宽频谱的声音频率。嘴部和喉部的快速发音序列是大脑能生成的最快的运动程序。这些结构是脊椎动物的古老部位,经过演化的改进和完善,使得人类可以进行语言交流。
为了解释语言的奥秘而假设的“语言器官”,实际上是分布在预先存在的感觉运动系统之中的。
支撑语言和思维的大脑机制是共同演化的。
皮层和基底神经节之间的回路本来用于生成动作序列
,后来被重新用于学习和生成词语序列。人类前额皮层的巨大扩展使得类似的回路可以生成一系列的思维。基底神经节在强化学习中作为一个参与者,
它学习采取下一步行动的价值
,使行动和语言朝着实现未来的奖励和目标方向发展。
Transformer 模型的外环让人联想到大脑中皮层和基底神经节之间的回路
,该回路被认为对学习和生成运动动作序列至关重要,并与运动皮层一起运作,在与前额皮层的回路中产生思维序列。基底神经节还会自动化经常练习的序列,从而释放出参与意识控制的皮层区域的神经元去处理其他任务。遇到特殊或稀有情况时,皮层可以介入控制。当多个皮层区域的输入在基底神经节中汇聚时,产生更广泛的背景信息,有助于决定下一步的动作或思维。
基底神经节可能就像 Transformer 中强大的多头注意力机制。
在皮层和基底神经节之间的回路中,任何一个区域都可以在决策中发挥作用。
大语言模型通过预测句子中的下一个词来进行训练。为什么这种方法如此有效?为了更好地进行预测,
Transformer 学习了句子结构的内部模型
,甚至构建了更复杂的语义模型,用于理解词语之间的含义和关系。模型还必须学习句子的因果结构。令人惊讶的是,仅通过一步步的预测可以学习到这么多内容。
如果大脑没有利用这种“逐步推进”的方法来构建对世界的内部模型,那将是令人意外的
。
强化学习中的时间差分学习算法也是基于预测的,只不过是预测未来的奖励。
AlphaGo 使用时间差分学习来学习如何做出一系列长时间的走棋,以赢得围棋比赛。这样一个只预测前一步的简单算法,是如何实现如此高水平博弈的呢?
基底神经节同样通过练习使用相同的算法学习一系列行动以实现目标。
例如,网球发球涉及复杂的快速肌肉收缩序列,需要反复练习才能变得自动化。
小脑是一个重要的大脑结构,它与大脑皮层互动,能够预测运动指令的期望感觉和认知后果。
在控制理论中,这被称为“前向模型”,因为它可以在动作发生前预测运动指令的结果。
同样,通过预测下一步会发生什么以及从错误中学习,可以建立一个关于身体和肌肉特性的复杂预测模型。
这三个例子中的共同之处在于,
它们在不同时间尺度上都有大量数据可用于自监督学习
。智能是否可以通过自监督学习产生,通过不断进行小范围预测来逐步构建越来越复杂的内部模型?或许婴儿大脑就是通过不断预测和观察结果,同时与世界进行主动互动,快速学习世界的因果结构。在这一方向上已经取得了一些进展,例如使用深度学习从视频中学习直观物理知识。