根据物理学知识,事物的稳态实际上代表了其对应的最低势能状态。因此,事物的稳态对应于某种能量的最低状态,并被移植到网络中,从而构建了网络处于稳态时的能量函数定义。
在2006年,LeCun等人回顾了基于能量模型的神经网络及其应用。当模型达到最优解时,它处于最低能量状态(即,它寻求将正向数据的能量最小化,并将负向数据的能量最大化)【LeCun et al., 2006】。任务是找到那些给定观测变量的隐藏变量配置,使能量值最小化(推理);并找到一个合适的能量函数,使观测变量的能量低于隐藏变量的能量(学习)。
在高维空间中,归一化概率分布的实现变得困难,这导致了一种有趣的数据生成建模方法【Pernkopf et al., 2014】。当进行归一化时,虽然可以通过分析来完成,但这些有趣的方法仍可以在参考文献【Wang, 2018】中找到。
4.2.1 生成对抗网络(GANs)
在2014年,Goodfellow等人提出了GAN【Goodfellow et al., 2014】,其目的是生成与训练集类型相同的样本,实质上是使用学习到的判别器判断来替代显式概率评估,可以利用监督学习过程中获取的知识进行无监督学习。基于物理启发的GAN研究开始出现,例如,Wang等人【2019】在GAN的可解释模型中使用早期在线学习的统计物理工作来推广感知器。
深度卷积生成对抗网络(DCGAN)【Radford et al., 2015】的判别器和生成器都使用CNN来替代GAN中的多层感知器,能够将监督学习和无监督学习结合在一起。CycleGAN【Zhu et al., 2017】可以在源域和目标域之间实现模式转换,而无需建立训练数据之间的一对一映射。GCGAN【Fu et al., 2019】是在原始GAN上增加卷积约束,能够稳定学习配置。WGAN【Arjovsky et al., 2017】改进了基于GAN的损失函数,并在全连接层上也能获得良好的性能结果。
4.2.2 变分自编码器模型(VAEs)
自编码器(AE)是一种前馈神经网络,旨在找到数据的简洁表示,同时仍然保持每个样本的显著特征,具有线性激活的自编码器与PCA密切相关。VAE【Kingma and Welling, 2013】结合了变分推理和自编码器,用于模拟能量分布函数之间的转化——构建生成对抗网络为数据提供了一个深度生成模型,从潜在变量Z生成目标数据X,可以在无监督的情况下进行训练。VAE模型更接近物理学家的思维方式,其中自编码器通过图形模型表示,并使用潜在变量和变分先验进行训练推理【Cinelli et al., 2021; Vahdat and Kautz, 2020】。Rezende等人【2014】的研究是理解VAE的基础版本。
一种有趣的生成建模方法涉及将概率分布分解为自回归模型中的一维条件分布的乘积,正如Van Oord等人的工作【2016】中所讨论的那样。这种分解允许通过逐次生成每一维度并基于前一维度进行条件生成,来高效地建模复杂的高维数据,例如图像。
在变分自编码器(VAEs)的背景下,另一种有趣的方法是用可处理的变分近似来替代后验分布。这一想法在Kingma和Welling【2013】、Gregor等人【2014】以及Rezende等人的开创性工作中提出。通过引入一个将输入数据映射到潜在空间的编码器网络和一个从潜在空间重建数据的解码器网络,VAEs实现了高效且可扩展的生成建模。
这些技术,即在自回归模型中分解概率分布并在VAEs中使用可处理的变分近似,为生成建模提供了有趣且有效的策略。它们为复杂数据分布建模提供了见解,并在图像生成和数据合成等多个领域中得到了应用。
4.2.3 自回归生成模型
自回归生成模型【Van Oord et al., 2016; Salimans et al., 2017】是一种可控的建模分布的方法,允许最大似然训练而无需潜在随机变量,其中条件概率分布由神经网络表示。由于这种模型是显示概率的一个家族,可以进行直接且无偏的采样。这些模型的应用已在统计学【Wu et al., 2019】和量子物理问题【Sharir et al., 2020】中得以实现。
神经自回归分布估计(NADE)是一种基于自回归模型和前馈神经网络的无监督神经网络【Zhang et al., 2019】,它是用于建模数据分布和密度的可处理且高效的估计器。
自组织理论认为,当一个开放系统远离平衡态达到非线性区域时,一旦系统的某个参数达到一定阈值,系统就会通过波动发生突变,从无序转变为有序,并产生化学振荡等自组织现象。它由耗散结构(从无序到有序)、协同(系统各元素的协同作用)和突变理论(阈值突变)组成。
自组织特征映射(SOM)【Kohonen 1989, 1990】由Kohonen教授提出,当神经网络接受外部输入时,SOM将分为不同的区域,每个区域对输入模式有不同的
响应特性。它通过自动发现样本中的内在规律和本质属性,自组织和自适应地改变网络参数和结构。自组织(竞争性)神经网络是一种模拟上述生物神经系统功能的人工神经网络。即在学习算法上,它模拟了兴奋、协调和抑制、生物神经元之间的竞争等信息处理的动态原理,指导网络的学习和工作。由于SOM是一种可以可视化高维数据并能有效压缩信息传输的工具,Kohonen等人【1996】总结了一些SOM的工程应用。
耗散结构是在系统远离热力学平衡状态时,在某些外部条件下,由于系统内部的非线性相互作用,通过突变形成了一种新的有序结构,这是非平衡统计物理学分支中的一个重要新方面。2017年,Amemiya等人发现并概述了糖酵解振荡在细胞节律和癌细胞中的作用【Amemiya et al., 2017】。同年,Kondepudi等人讨论了耗散结构在理解生物体中的相关性,并提出了一种电压驱动系统【Kondepudi et al., 2017】,该系统可以表现出类似于我们在生物体中看到的行为。同年,Burdoni和De Wit讨论了反应和扩散之间的相互作用如何在不同反应物接触时产生局部的时空模式【Budroni and De Wit, 2017】。
4.4 随机表面神经网络
在人工智能领域,早期的研究受到凸面优化的理论保证的强烈影响,在凸面优化中,每个局部极小值也是全局极小值【Boyd et al., 2004】。然而,在处理非凸面时,高误差局部极小值的存在可能会影响梯度下降的动态,并影响优化算法的整体性能。
高维空间中光滑随机高斯表面的统计物理学已经被广泛研究,产生了各种表面模型,将空间信息与概率分布连接起来【Bray and Dean, 2007; Fyodorov and Williams, 2007】。这些模型为理解非凸面的行为和特性提供了见解,揭示了高维优化问题所面临的挑战。
在2014年,Dauphin等人研究了神经网络误差表面模型与统计物理学之间的联系,即球形自旋玻璃能量函数与神经网络误差表面模型之间的联系【Choromanska et al., 2015】。
2014年,Pascanu在Dauphin等人【2014】的工作中提出了鞍点无关牛顿算法(SFN),针对高维非凸优化问题中存在大量鞍点而非局部极值的问题。它可以迅速摆脱梯度下降减缓的鞍点。此外,Kawaguchi【2016】将随机表面引入更深层的网络中。
通过研究随机表面的统计物理学,研究人员更好地理解了非凸优化中遇到的复杂景观。这些知识对改进优化算法和增强在高维空间中操作的人工智能系统的性能具有重要意义。
总之,统计物理学研究了不同的表面模型,以分析非凸优化景观的行为。理解这些表面的特性不仅对解决高维优化问题的挑战至关重要,而且对改进人工智能算法的性能也具有重要意义。
4.5 自由能表面(FES)神经网络
自由能是指在特定热力学过程中,系统的减少的内能中能够转化为外界功的一部分。它衡量了系统在特定热力学过程中可以向外输出的“有用能量”。自由能可以分为亥姆霍兹自由能和吉布斯自由能。配分函数等同于自由能。
在基于能量的模型中,研究人员提出了许多方法来克服计算自由能的困难。这些方法包括穷尽蒙特卡洛法、对比散度启发式【Hinton, 2002】及其变体【Tieleman and Hinton, 2009】、分数匹配【Hyvärinen and Dayan, 2005】、伪似然【Besag, 1975】以及最小概率流学习(MPF)【Battaglino, 2014; Sohl-Dickstein et al., 2011】(其中MPF本身基于非平衡统计力学)。尽管取得了这些进展,在高维数据集上训练具有表现力的基于能量的模型仍然是一个未解决的挑战。
在基于能量的模型中,提出了几种方法来应对计算自由能的挑战。这些方法旨在尽管估计自由能存在计算困难,仍然有效地训练模型。一些值得注意的方法包括:
机器学习方法将系统的自由能表面作为集体变量的函数进行学习,以优化人工智能算法。通过神经网络的自由能表面表示,可以改进高维空间的采样。例如,Schneider等人提出了一种可学习的自由能表面,用于预测压力下固体氙的NMR自旋自旋耦合模型【Schneider et al., 2017】。在2018年,Sidky等人提出了一个用于自由能表面的小型神经网络,它可以使用动态(实时)自适应采样生成的数据点进行迭代训练【Sidky and Whitmer, 2018】。该模型验证了当生成新数据时,可以获得全配置空间的平滑表示。Wehmeyer和Noé【2018】提出了一种时间滞后自编码器方法,用于在肽折叠的示例中识别缓慢变化的集体变量。2018年,Mardt等人提出了一种基于变分神经网络的方法,用于识别蛋白质折叠模拟期间的重要动态过程,并提供了统一的坐标变换和自由能表面探索的框架【Mardt et al., 2018】,提供了对系统底层动态的见解。2019年,Noé等人提出使用玻尔兹曼生成器采样集体空间的平衡分布,以表示自由能表面上的状态分布【Noé et al., 2019】。
尽管取得了这些进展,在高维数据集上训练具有表现力的基于能量的模型仍然是一个挑战性任务。正在进行的研究旨在开发更高效和更有效的训练方法,以应对该领域的未解决挑战。
4.6 知识蒸馏优化神经网络
对于神经网络:模型越大,层数越深,学习能力越强。为了从大量冗余数据中提取特征,CNN通常需要过多的参数和更大的模型进行训练。然而,模型结构的设计难以设计,因此模型优化成为解决这一问题的重要因素。
知识蒸馏
在2015年,Hinton的开创性工作“知识蒸馏”(Knowledge Distillation, KD)推动了模型优化的发展【Hinton et al., 2015】。知识蒸馏模拟物理中的加热蒸馏以提取有效物质,并将大模型(教师网络)的知识转移到小模型(学生网络),从而使模型更易于部署。在蒸馏过程中,小模型学习大模型的泛化能力,加快推理速度,并保留接近大模型的性能(图16)。
4.6.1 知识蒸馏神经网络
2017年,TuSimple和Huang等人提出了一种蒸馏算法,利用神经元的知识选择特性来传递新知识(对齐选择风格分布),并命名为神经元选择性转移(Neuron Selectivity Transfer, NST)【Huang and Wang, 2017】。NST模型可以与其他模型结合,学习更好的特征并提高性能。为了使学生网络能够自动从教师网络中学习到良好的损失函数,以保留类别之间的关系并保持多样性,Zheng等人在2018年使用条件对抗网络(Conditional Adversarial Networks, CAN)构建了教师-学生架构【Xu et al., 2017】。深度互学习(Deep Mutual Learning, DML)模型【Zhang et al., 2018】和再生神经网络(Born Again Neural Networks, BAN)模型【Furlanello et al., 2018】于2018年提出,它们应用了知识蒸馏,但并不旨在压缩模型。Huang等人【2024】提出了一种新的知识蒸馏模型,使用扩散模型来显式去噪和匹配特征,从而降低计算成本。Ham等人【2024】提出了一种基于知识蒸馏对抗训练策略的新型网络,命名为NEO-KD,能够提高对抗攻击的鲁棒性。
4.6.2 网络架构搜索(NAS)和知识蒸馏(KD)
知识蒸馏将教师网络中的知识转移到学生网络中,而NAS中存在大量的网络,使用知识蒸馏有助于提高超级网络的整体性能。2020年,Peng等人提出了一种基于优先路径的网络蒸馏算法,以解决模型之间权重共享的固有缺陷,即HyperNetworks中子网训练不足的问题【Peng et al., 2020】,从而改善了各个模型的收敛性。同年,Li等人使用Distill the Neural Architecture(DNA)算法【Li et al., 2020】,通过知识蒸馏来监督网络内部结构的搜索,这显著提高了NAS的有效性。Wang等人【2021】通过自适应选择alpha散度改进了KL散度,有效防止了教师模型中的过度估计或不确定性估计。Gu和Tresp【2020】结合了网络剪枝和蒸馏学习,以搜索最适合的学生网络。Kang等人在【2020】中提出了Oracle Knowledge Distillation(OKD)方法,从综合教师网络中进行蒸馏,并使用NAS调整学生网络模型的容量,从而提高了学生网络的学习能力和学习效率。受到BAN的启发,Macko等人【2019】提出了自适应知识蒸馏(Adaptive Knowledge Distillation, AKD)方法,以辅助子网络的训练。为了提高知识蒸馏的效率和有效性,Guan等人【2020】使用可微分特征聚合(Differentiable Feature Aggregation, DFA)来指导教师网络和学生网络的学习(网络架构搜索),并采用类似于可微分架构搜索(Differentiable Architecture Search, DARTS)的方法【Liu et al., 2018】自适应地调整缩放因子。
4.7 深度神经网络解决经典统计物理问题
4.7.1 魔方问题
魔方由Rubik教授于1974年发明,最初称为“魔术方块”。后来,这款玩具由Ideal Toy Co发行,并被命名为“Rubik's Cube”(Rubik魔方)【European, Plastics, News, group (2015)】。2018年,一个名为DeepCube的新算法无需人工协助,通过自学推理解决了魔方问题【McAleer et al., 2018】。这是在尽量减少帮助的情况下解决复杂问题的里程碑。2019年,Agostinelli等人在《Nature Machine Intelligence》上提出使用DL方法DeepCubeA和搜索算法解决魔方问题【Agostinelli et al., 2019】。DeepCubeA可以在没有任何特定领域知识的情况下学会如何解决魔方问题,并能够从目标状态反向解决越来越困难的魔方问题。2021年,Corli等人引入了一种基于哈密顿奖励的深度强化学习算法,并引入了量子力学来解决魔方组合问题【Corli et al., 2021】。诺丁汉大学的副教授Colin的团队在《Expert Systems》上发表了一篇论文,使用逐步深度学习方法学习“适应度函数”来解决魔方问题,并强调了逐步处理的优势【Johnson (2021)】。
4.7.2 神经网络检测相变
由于深度神经网络(DNN)的每一个新的高层都能从数据中学习到越来越抽象的高级特征,而前几层则可以学习更精细的尺度以表示输入数据,研究人员引入了重整化理论并从微观规则中提取宏观规则。2017年,Bradde和Bialek讨论了重整化群和主成分分析之间的类比【Bradde and Bialek (2017)】。2018年,Li和Wang等人使用神经网络学习了一种新的重整化方案【Koch-Janusz and Ringel (2018); Kamath et al. (2018)】。
相变是物质不同相之间的边界,通常由序参量来表征。然而,神经网络展示了能够学习适当的序参量并在不需要先验物理知识的情况下检测相变的能力。2018年,Morningstar和Melko使用无监督生成图理解二维伊辛系统的概率分布,这项工作展示了神经网络可以捕捉伊辛模型中相变的基本特征【Morningstar and Melko (2017)】。
文献中还提供了神经网络能够区分伊辛模型中相变的正面证据。Carrasquilla和Melko【2017】,以及Wang【2016】利用主成分分析在无需先验系统物理特性的情况下检测相变。Tanaka和Tomiya【2017】提出了一种通过热图估计特定相边界值的方法,进一步展示了在不需要先验物理系统知识的情况下发现相变现象的可能性。
对于这些主题的深入理解,感兴趣的读者可以参考Kashiwa等人的论文【2019】和Arai等人的论文【2018】。总的来说,这些研究强调了神经网络即使在没有明确物理知识的情况下,也有可能识别和表征相变现象,开辟了研究复杂系统和发现涌现现象的新途径。
4.7.3 蛋白质序列预测与结构建模
蛋白质序列预测和结构建模在“AI + 大健康”领域,如精准医学和药物研发中,具有重要意义。2003年,Bakk和Høye通过引入简化的一维蛋白质类比(即使用一维伊辛模型)研究了蛋白质折叠问题【Bakk and Høye (2003)】。最近,Cocco等人【2018】使用随机受限玻尔兹曼机(RBM)模型对蛋白质家族的序列信息进行了建模【Tubiana et al., 2019】。RBM学习过程的分析研究极具挑战性,通常使用基于吉布斯采样的对比散度算法【Hinton (2002)】。
Wang等人【2018】利用卷积神经网络结合极限学习机(ELM)分类器预测RNA-蛋白质相互作用。2019年,Brian Kuhlman等人回顾了用于蛋白质序列预测和三维结构建模问题的深度学习方法【Kuhlman and Bradley (2019)】。在《Nature Communications》中,Ju等人引入了一种新的神经网络架构CopulaNet,该架构可以从目标蛋白质的多序列比对中提取特征并推断残基共进化,克服了传统统计方法中的“信息丢失”缺陷【Ju et al., 2021】。
4.7.4 有序玻璃状结构设计
Mehta在【Bukov et al., 2018】中的实验提供了这一方向的一些初步思路,突出了强化学习在量子物理学之外的平衡量应用中的潜在用途。2019年,Greitemann和Liu等人引入并研究了一种基于核学习的方法【Greitemann et al., 2019; Liu et al., 2019】,用于学习受挫磁性材料中的相位,具有更容易解释和识别复杂序参量的能力。
2016年,Nussinov等人也研究了有序玻璃状固体,使用多尺度网络聚类方法来识别玻璃的空间和时空结构【Cubuk et al., 2015】,学习识别结构流动缺陷。还可以辨别出广泛无序材料中观察到的异质动态所负责的微妙结构特征。2017年,Wetzel等人将无监督学习应用于伊辛模型和XY模型【Wetzel (2017)】,2018年,Wang和Zhai等人在受挫自旋系统中引入了无监督学习【Wang and Zhai (2017); Wang and Zhai (2018)】,超越了监督学习的局限性,能够更好地进行分类。
4.7.5 非线性动力系统的预测
人工智能还提供了稳健的系统来研究、预测和控制非线性动力系统。2016年,Reddy等人使用强化学习教会自主滑翔机利用大气中的热能像鸟一样飞行【Reddy et al., 2016; Reddy et al., 2018】。2017年,Pathak等人使用一种称为回声状态网络的递归神经网络或库(Jaeger和Haas,2004)来预测混沌动力系统的轨迹,并建立了用于天气预报的模型【Pathak et al., 2018】。Graafland等人【2020】使用BNS建立数据驱动的复杂网络来解决气候问题。相关网络(CNS)的网络拓扑结构包含冗余信息。另一方面,贝叶斯网络(BNS)只包含(从概率的角度看)非冗余信息,因此可以利用稀疏拓扑结构从中提取出有信息的物理特征。Boers等人【2014】使用极端事件同步方法研究了极端降水的全球模式,并尝试预测南美洲的降水。Ying等人【2021】使用相同的方法研究了碳循环和碳排放,制定了碳排放和碳减排的策略和对策。Chen等人【2021】将本征微态方法应用于不同结构上臭氧的分布和演变。Zhang等人【2021】通过考虑地震的长期记忆模型,改变了传统的ETAS地震预测模型。海洋混合参数的不确定性是海洋和气候建模中偏差的主要来源,缺乏过程理解的传统物理驱动参数化方法在热带表现不佳。Zhu等人【2022】探索了利用深度学习方法和长期湍流测量的海洋垂直混合过程参数化的数据驱动方法,在有限观测数据下展示了良好的性能、良好的物理约束泛化能力,并改善了气候模拟中的物理信息。
5 受量子力学启发的深度神经网络范式
量子算法是一类在量子计算模型上运行的算法。通过借鉴量子力学的基本特性,如量子叠加或量子纠缠,量子算法在计算复杂性上相比传统算法具有显著的减少,甚至可以达到指数级的降低。早在1992年,David Deutsch和Richard Jozsa提出了第一个量子算法,即Deutsch-Jozsa算法【Deutsch and Jozsa (1992)】。该算法仅需要一次测量就可以确定Deutsch-Jozsa问题中未知函数所属的类别。虽然这个算法缺乏实际应用,但它引发了一系列后续的传统量子算法。1994年,Peter W. Shor提出了著名的量子大数质因数分解算法,称为Shor算法【Shor (1994)】。传统分解算法的计算复杂性随着问题规模呈指数级增长,而Shor算法可以在多项式时间内解决质因数分解问题。1996年,Lov K. Grover提出了经典的量子搜索算法,也称为Grover算法,其复杂度为O(√N),相比传统搜索算法提高了二次效率【Grover (1996)】。受自然启发的随机优化算法一直是研究的热点话题。近期的工作【Sood (2024)】对量子启发的元启发式算法进行了全面概述,而【Kou et al. (2024)】的工作总结了量子动态优化算法。表4中概述了这些代表性方法。