专栏名称: 知乎日报
提供最好的资讯评论,兼顾专业与趣味。
目录
相关文章推荐
知乎日报  ·  垂死病中惊坐起,AI 也能算物理? ·  21 小时前  
知乎日报  ·  把化学元素一个个删除,会发生什么变化? ·  4 天前  
知乎日报  ·  为什么说光速不能被超越? ·  6 天前  
51好读  ›  专栏  ›  知乎日报

2024 诺贝尔物理学奖授予人工神经网络机器学习,为什么会颁给 AI 领域?

知乎日报  · 公众号  · 问答  · 2024-10-09 12:47

正文

点击上方卡片关注👆
10 月 8 日,2024 年诺贝尔物理学奖揭晓。美国科学家约翰·霍普菲尔德与英国科学家杰弗里·辛顿因「在人工神经网络机器学习方面的基础性发现和发明」获此殊荣。2024 年物理学诺奖为什么会颁给 AI 领域?一起来看看答主的回答吧。

2024 诺贝尔物理学奖授予人工神经网络机器学习,为什么会颁给 AI 领域?

| 答主:笠道梓
Geoffrey Hinton 基于 John Hopfield 开发的 Hopfield 网络开发了 Boltzmann 机这种神经网络,可以算是起源于统计物理。
在 Hopfield 网络中,每个节点(神经元)代表一个函数。节点根据一种确定性的规则更新,这种更新保证仿照 Ising 模型为网络定义的「能量」单调递减向某个极小值。那么,Hopfield 网络的训练就是在极小化「能量」。
但是,Hopfield 网络可能收敛到局部的极小值,而不是全局的极小值。为避免这个问题,Geoffrey Hinton 改用随机性的更新规则,这就是 Boltzmann 机。
Boltzmann 机的随机性更新规则基于统计物理启发的 Monte Carlo 方法,以一定的概率重新设置神经元的值。选择的概率保证网络收敛于由「能量」完全确定的热平衡态。
我们看到,这些想法都是受到统计物理的启发,向这些想法的提出者授予物理学奖,也不算太离题。下面介绍这方面一些更近的相关进展。
许多机器学习技术仍然缺乏坚实的理论基础,这阻碍了我们对它们的效果取得很好的理解。现在,更多的学者尝试用统计物理的方法来描述某些学习算法,例如重整化群。
重整化群是一种迭代的粗粒化方案,容许在不同尺度上考察物理系统时提取相关特征。Pankaj Mehta 和 David J. Schwab 构建了一个精确的映射,从 Kadanoff 首先引入的变分重整化群,映射到基于受限 Boltzmann 机的深度学习框架。他们的研究表明,深度学习算法可采用类似重整化群的方案来从数据中学习相关特征。
Daniel A. Roberts 和 Sho Yaida 出版了专著 The Principles of Deep Learning Theory: An Effective Theory Approach to Understanding Neural Networks(《深度学习理论的原理:理解神经网络的有效理论方法》),借助物理学中的有效理论思想(重整化群正是这种思想的体现之一)来描述神经网络。
Yasaman Bahri,Jonathan Kadmon,Jeffrey Pennington,Sam S. Schoenholz,Jascha Sohl-Dickstein 和 Surya Ganguli 在期刊 Annual Review of Condensed Matter Physics 上发表综述文章 Statistical Mechanics of Deep Learning,介绍深度学习与各种物理和数学主题间的联系,包括随机景观,自旋玻璃,阻塞相变,混沌和非平衡统计力学。可以阅读这篇综述,从参考文献中进一步了解这些相关的研究。


| 答主:SIY.Z
这个问题下面好冷,看来今年诺贝尔物理学奖猜准的很少,我也是相当意外的。不过谈到 Hopfield 和 Hinton 对于物理学的贡献,倒是意料之中。

我一直认为 RBM 是一个历史地位被低估的工作,很大程度上是因为它的闪光点很快被后续深度学习的浪潮掩盖了。
现在回过头来看,RBM(以及它的前身 Boltzmann Machine)真的是一个很厉害的工作,引导了以下先河(任何 AI 从业者都应该能理解它们的重要性):
1. 用统计物理构建机器学习模型
2. 深度神经网络的高效训练
3. 生成模型(generative model),通过生成数据去理解数据的想法
4. 预训练(论文中用了 finetune(微调)这个词描述这个过程,但是以现在的眼光来看它其实是某种 pretraining,而后来的过程才是 finetuning。这个称呼位置的变化是近年来数据和算力发展的最佳见证)
5. 无监督学习,即如何不使用数据标签训练模型
6. 表征学习(representation learning),即重点从学习数据本身转向学习数据的(高级)表征
7. 甚至是神经网络特征的可解释性(「It is possible to interpret the non-linear, distributed representations in the deep hidden layers by generating images from them」)
而这些都来自于一些非常简单的统计物理上的假设。



Hinton,神经网络与物理学

(以下用 NN 指代人工神经网络,CNN 指代(深度)卷积神经网络,DNN 指代深度神经网络)
要深入理解 Hinton 的想法,就必须了解神经网络发展的历史,这也几乎是 Hinton 的学术史。
人工智能才起步的时候,科学家们很自然的会有模拟人脑的想法(被称为连接主义),因为人脑是我们唯一知道的拥有高级智能的实体。
NN 起源于对神经系统的模拟,最早的形式是感知机,学习方法是神经学习理论中著名的 Hebb's rule 。NN最初提出就成为了人工智能火热的研究方向。不过 Hebb's rule 只能训练单层 NN,而单层 NN 甚至连简单的「异或」逻辑都不能学会,而多层神经网络的训练仍然看不到希望,这导致了 NN 的第一个冬天。
Hinton 意识到,人工神经网络不必非要按照生物的路子走。在上世纪 80 年代, Hinton 和 LeCun 奠定和推广了可以用来训练多层神经网络的反向传播算法(back-propagation)。NN 再次迎来了春天。
反向传播算法,说白了就是一套快速求目标函数梯度的算法。
首先是,反向传播算法在生物学上很难成立,很难相信神经系统能够自动形成与正向传播对应的反向传播结构(这需要精准地求导数,对矩阵转置,利用链式法则,并且解剖学上从来也没有发现这样的系统存在的证据)。反向传播算法更像是仅仅为了训练多层NN而发展的算法。失去了生物学支持的 NN 无疑少了很多底气,一旦遇到问题,人们完全有更多理由抛弃它(历史上也是如此)
其次是,反向传播算法需要 SGD 等方式进行优化,这是个高度非凸的问题,其数学性质是堪忧的,而且依赖精细调参。相比之下,(当时的)后起之秀 SVM 等等使用了凸优化技术,这些都是让人们远离 NN 的拉力。当那时候的人们认为 DNN 的训练没有希望(当时反向传播只能有效训练浅层网络)的时候,NN 再次走向低谷。

深度学习时代的敲门砖——RBM

第二次 NN 低谷期间,Hinton 没有放弃,转而点了另外一个科技树:热力学统计模型。
Hinton 由玻尔兹曼统计相关的知识,结合马尔科夫随机场等图学习理论,为神经网络找到了一个新的模型:玻尔兹曼机(BM)。Hinton 用能量函数来描述 NN 的一些特性,期望这样可以带来更多的统计学支持。
不久 Hinton 发现,多层神经网络可以被描述为玻尔兹曼机的一种特例——受限玻尔兹曼机(RBM)。Hinton 在  Andrew Ng 2017 年对他的采访中,称其为「most beautiful work I did」。
Hinton 展现了 NN 和玻尔兹曼分布间惊人的联系(其在论文中多次称 surprisingly simple [2]),其背后的内涵引人遐想。甚至有人在听过 Hinton 的讲座之后,还发现 RBM 的训练模式和量子重整化群的重整化步骤是同构的 [1]。
不过问题是,优化整体网络是困难的,其根源性被认为在于配分函数 Z 。求得最低能量对应的结构一般意义上是个 #P - Hard 的问题,如果真的能够有有效算法,那么很多热力学系统,包括 Ising 模型也就迎刃而解。
Hinton 使用贪心的方式来降低算法复杂度:逐层训练网络,而不是整体优化。而为了训练每层 RBM,Hinton 发展了所谓的对比散度(contrastive divergence)算法。
CD 算法利用了 Gibbs sampling,但是算法收敛的非常慢(这已经是贪心处理过的问题了,可见原问题多难)。Hinton 再次近似,固定采样步数 k ,被称为算法。Hinton 惊奇的发现 k=1 的时候(显然是极度粗糙的近似),算法的表现就已经相当良好了
由于玻尔兹曼机本身的特性,其可以被用来解决「无监督学习」(Unsupervised learning)相关的问题。即使没有标签,网络也可以自己学会一些良好的表示,比如下面是 RBM 从 MNIST 数据集中学到的表示:
Hinton 发现用这个粗糙的算法预处理网络(这个时候是无监督学习,也就是只需要数据,不需要标签;在下面会提到)后,就可以加上标签,使用反向传播继续训练,或者干脆直接在后面接个新的分类器高效且稳定地训练深层神经网络。之后「深度学习」这个词逐渐走上历史的前台,虽然 1986 年就有这个概念了 [3]。可以说 RBM 是这一波人工智能浪潮的先行者。
然后大家更加熟悉的故事开始了,算力和数据的提升,正确的参数初始化,ReLU 激活函数的使用(实际上它最早发挥作用的地方也是 RBM [4],几乎和当时多篇的论文一起提出,也算是一种共时性现象了),normalization 的应用,使得深度神经网络的训练不再依赖于RBM中缓慢低效初始化。从此之后,「现代」的深度学习方法逐渐走向主流,卷积神经网络(CNN)和循环神经网络(RNN)在计算机视觉和自然语言处理领域取得了突破。随着数据集的规模急剧增大和 GPU 硬件的发展,模型的规模也迅速扩展,从传统的几层网络发展到数百层的复杂网络结构。Transformer 架构的提出进一步改变了整个深度学习的格局,成为了基础模型的标杆。
与此同时,BM/RBM 等模型虽然逐渐淡出主流机器学习的视野,但其作为早期神经网络发展的奠基石,依然具有不可忽视的历史意义。它们不仅推动了神经网络训练技术的发展,还在物理学、统计力学和量子计算等跨学科领域保留了一席之地,作为研究物理系统和优化问题的工具发挥着独特的作用。
如今,随着 AI 技术的普及和进一步的发展,人们逐渐意识到,不同的模型有各自适用的场景与价值。BM/RBM 的理论研究依然在一些学术领域继续推进,同时,我们也见证了深度学习模型在越来越多的实际应用中展现其强大的预测和决策能力。正如历史告诉我们的那样,每一个技术的兴衰背后,都有其时代背景和独特的科学价值,而这正是科技进步的魅力所在。



想要了解更多关于诺贝尔奖的精彩预测和专业见解,点击【阅读原文】,立即前往知乎圆桌查看!


Reference
[1] Bény, C. (2013). Deep learning and the renormalization group. arXiv preprint arXiv:1301.3124.
[2] Hinton, G. (2010). A practical guide to training restricted Boltzmann machines. Momentum, 9(1), 926.
[3] Rina Decher (1986). Learning while searching in constraint-satisfaction problems. University of California, Computer Science Department, Cognitive Systems Laboratory.
[4] Nair, Vinod, and Geoffrey E. Hinton (2010). 「Rectified linear units improve restricted boltzmann machines.」 Proceedings of the 27th international conference on machine learning



👇点击【阅读原文】,看更多精彩预测