大模型、多模态、多智能体层出不穷,各种各样的神经网络变体在AI大舞台各显身手。复杂系统领域对于涌现、层级、鲁棒性、非线性、演化等问题的探索也在持续推进。而优秀的AI系统、创新性的神经网络,往往在一定程度上具备优秀复杂系统的特征。因此,发展中的复杂系统理论方法如何指导未来AI的设计,正在成为备受关注的问题。
集智俱乐部联合加利福尼亚大学圣迭戈分校助理教授尤亦庄、北京师范大学副教授刘宇、北京师范大学系统科学学院在读博士张章、牟牧云和在读硕士杨明哲、清华大学在读博士田洋共同发起「AI By Complexity」读书会,探究如何度量复杂系统的“好坏”?如何理解复杂系统的机制?这些理解是否可以启发我们设计更好的AI模型?在本质上帮助我们设计更好的AI系统。读书会于6月10日开始,每周一晚上20:00-22:00举办。欢迎从事相关领域研究、对AI+Complexity感兴趣的朋友们报名读书会交流!
如今的AI领域正在经历着加速发展,并产生了广泛的社会影响,神经网络现在已经占据了人工智能算法研究的核心。通过观察神经网络领域的发展,我们发现人们通过引入不同的结构设计偏见(bias)开发出了具有不同性质的算法模型。例如,层级化的信息聚合机制带来了卷积神经网络,记忆机制带来了循环神经网络,稀疏性的引入带来了节省能量的稀疏网络,生物神经元的放电机制带来了脉冲神经网路模型,等等。
我们发现,很多人们想要给神经网络引入的性质,例如节省能量,层级化的信息处理等,也都是复杂系统的性质。
那
什么是一个“好”的神经网络?
在以前的研究范式中,人们往往是将一个在复杂系统中观察到的性质引入神经网络,从而得到一个好的神经网络,
然而我们认为,一个好的神经网络,本质上应该首先是一个好的复杂系统,然后它将自然的带有节省能量,信息处理高效,可以对抗扰动等诸多性质。
这两种研究思路是不同的,前者的启发可以来源于任何地方,例如来源于直觉(持续学习,稀疏神经网络),来源于数据(对比学习),来源于人类社会的需要(联邦学习)等。这些启发也相当重要,但总体而言,他们指向AI如何面对特定限制下的挑战,而并不在本质上指向更强的人工智能模型。而后者的启发将来源于人们对复杂系统理论的进展和对复杂系统机制的理解,指向AI系统的内在属性的增强。
通过观察近期的科研趋势,尤其是大语言模型的进展,我们可以观察到数据量和参数量的胜利,然而系统的尺寸只是其复杂性的一个方面。
如何度量复杂系统的“好坏”?如何理解复杂系统的机制?这些理解是否可以启发我们设计更好的AI模型?这是我们想要通过这个读书会回答的问题。
复杂系统和人工智能的研究是互相促进的,在本次读书会中,我们主要关注这条双向箭头的其中一边,即复杂系统的新理论如何指导人工智能的设计。因此,我们会共同学习复杂系统的最新进展,并一起讨论如何将其应用于AI领域。当然,在这个方向上已经存在一些值得学习的研究范例,如神经网络的临界性,大模型的scaling law等。但更多的复杂系统理论及方法也为我们展示了更多的可能,如复杂系统的信息处理能力,对抗扰动的鲁棒性,通过局部的互相抑制来节省整体能量消耗的机制等,这些新的进展,或许可以帮助我们设计新的AI。
我们认为未来更好的AI一定是一个具有强大计算能力的复杂系统。所以我们应该站在复杂系统的视角,关注如何量化定义“好的复杂系统”,如何理解复杂系统的机制。这种对复杂系统的深入研究,会帮助我们更好地理解AI以及设计出更好的AI。在本次读书会中,我们将为大家从不同的视角呈现复杂系统的研究成果以及与AI如何融合。这些方向如下图:
张章
,北京师范大学系统科学学院博士生。研究兴趣集中于复杂网络与深度学习的交叉领域,具体包括机器学习,复杂系统自动建模等。
田洋
,博士,研究方向是复杂系统、统计物理和计算物理。
刘宇
,副教授,北京师范大学珠海校区-复杂系统国际科学中心-Evolving Complex Systems Lab。物理、数学背景(瑞典Uppsala大学应用数学与统计博士),先后在英国Glasgow大学化学系、荷兰Groningen大学化学生物系、瑞典Mittag-Leffler数学研究所任研究职位。目前研究方向:用算法信息论研究生命的起源与演化,即,把生命系统定量刻画成软件系统。微信公众号:【ecsLab】。
牟牧云
,北京师范大学系统科学学院博士生。研究方向:复杂系统建模与调控、强化学习世界模型、图神经网络。
杨明哲
,北京师范大学系统科学学院硕士生,张江老师因果涌现研究小组成员。研究领域是因果涌现、复杂系统自动建模。
尤亦庄
,加利福尼亚大学圣迭戈分校助理教授。研究领域为理论凝聚态物理,强关联系统,量子拓扑物态,多体局域化与热化,纠缠,张量网络,以及全息原理与机器学习。
个人主页:https://everettyou.github.io/
https://pattern.swarma.org/user/4298
本读书会适合参与的对象
-
基于复杂系统相关学科研究,对统计物理、复杂网络、信息论、复杂系统临界性等视角启发AI系统构建与研究有浓厚兴趣的科研工作者;
-
具有一定统计物理、信息论、复杂网络、神经科学以及计算机科学的学科背景,在领域内有一定的研究基础,想进一步进行交叉学科研究与交流的学者、研究生、本科生。
-
对复杂科学充满激情,对世界,特别是“AI是否能成为一个真正的复杂系统”充满好奇的探索者,且具备一定的英文文献阅读能力的探索者。
-
想锻炼自己科研能力或者有出国留学计划的高年级本科生及研究生。
社群管理规则
为确保专业性和讨论的聚焦,本读书会谢绝脱离读书会主题和复杂科学问题本身的空泛的哲学和思辨式讨论;不提倡过度引申在社会、人文、管理、政治、经济等应用层面的讨论。
我们将对参与人员进行筛选,如果出现讨论内容不符合要求、经提醒无效者,会被移除群聊并对未参与部分退费,解释权归集智俱乐部所有。
运行模式
本季读书会预计讨论分享10-12次,以主题分享的形式按照暂定框架贯次展开;每周进行线上会议,与会者可以广泛参与讨论,会后可以获得视频回放持续学习。
举办时间
从2024年6月10日开始,每周一20:00-22:00,持续时间预计10-12周
。我们也会对每次分享的内容进行录制,剪辑后发布在集智斑图网站上,供读书会成员回看,因此报名的成员可以根据自己的时间自由安排学习时间。
参与方式
此次读书会为线上闭门读书会,采用的会议软件是腾讯会议(请提前下载安装)。
在扫码完成报名并添加负责人微信后,负责人会将您拉入交流社区(微信群),入群后告知具体的会议号码。
报名方式
第二步:填写信息后,付费299元。
第三步:添加负责人微信,拉入对应主题的读书会社区(微信群)。
本读书会可开发票,请联系相关负责人沟通详情。
共学共研模式与退费机制
读书会采用共学共研的机制,围绕前沿主题进行内容梳理和沉淀。读书会成员可通过内容共创任务获得积分,解锁更多网站内容,积分达到标准后可退费。发起人和主讲人作为读书会成员,均遵循内容共创共享的退费机制,暂无其他金钱激励。读书会成员可以在读书会期间申请成为主讲人,分享或领读相关研究。
加入社区后可以获得的资源:
-
在线会议室沉浸式讨论:与主讲人即时讨论交流。
-
交互式播放器高效回看
:快速定位主讲人提到的术语、论文、大纲、讨论等重要时间点(详情请见:
解放科研时间,轻松掌握学术分享:集智斑图推出可交互式播放器
)
-
高质量的主题微信社群:硕博比例超过80%的成员微信社区,闭门夜谈和交流
-
超多学习资源随手可得:从不同尺度记录主题下的路径、词条、前沿解读、算法、学者等。
-
参与社区内容共创任务:读书会笔记、百科词条、公众号文章、论文解读分享等不同难度共创任务,在学习中贡献,在付出中收获。
-
共享追踪主题前沿进展:在群内和公众号分享最新进展,领域论文速递。
参与共创任务,共建学术社区:
-
读书会笔记:在交互式播放器上记录术语和参考文献
-
集智百科词条:围绕读书会主题中重要且前沿的知识概念梳理成词条。例如:
-
论文解读分享:认领待读列表中的论文,以主题报告的形式在社区分享
-
论文摘要翻译:翻译社区推荐论文中的摘要和图注
-
公众号文章
:以翻译整理形式或者原创写作生产公众号文章,以介绍前沿进展。例如:
PS:具体参与方式可以加入读书会后查看对应的共创任务列表,领取任务,与运营负责人沟通详情,上述规则的最终解释权归集智俱乐部所有。
阅读材料较长,为了更好的阅读体验,建议您前往集智斑图沉浸式阅读,并可收藏感兴趣的论文。
一、作为复杂系统的AI大模型
本视角下关注的核心问题:
AI大模型首先是一个典型的复杂系统。如何用复杂系统的视角去研究现在的AI系统,有哪些方法可以借鉴,有哪些规律可以帮助深入理解AI大模型,可以从复杂网络、复杂动力系统的方法来对大模型进行研究,同时也能够去深入理解AI大模型的涌现现象和规模法则。
推荐阅读:
AI何以涌现:复杂适应系统视角的ChatGPT和大语言模型
https://pattern.swarma.org/article/224
本视角下讨论的核心理论:网络科学、规模法则、涌现
1. Jason Wei, Yi Tay, Rishi Bommasani, et al. Emergent Abilities of Large Language Models
. arXiv:2206.07682
, 2022
大语言模型中的涌现:大语言模型的涌现现象也是近年来研究的热点问题,但是与传统复杂系统中的涌现定义不同,大语言模型的涌现能力,指的是随着模型规模的增长,一些能力会突然变强,突变式地拥有了小语言模型所不具有的新能力。
2. Jared Kaplan, Sam McCandlish, Tom Henighan, et al. Scaling Laws for Neural Language Models
. arXiv:2001.08361
, 2020
大语言模型的规模法则:与许多复杂系统一样,大语言模型也遵循着规模法则(Scaling law),也就是它的各项宏观指标会形成两两的幂律关系。
3. Emanuele La Malfa, Gabriele La Malfa, Giuseppe Nicosia, et al. Characterizing Learning Dynamics of Deep Neural Networks via Complex Networks
. arXiv:2110.02628
, 2021
展示了神经网络训练过程中权重分布的异质化趋势,即赢者通吃的局面。
4. Matteo Zambra, Alberto Testolin, Amos Maritan. Emergence of Network Motifs in Deep Neural Networks
. arXiv:1912.12244
, 2019
研究了神经网络在训练过程中自发演化出的局部网络结构。
5. Emanuele La Malfa, Gabriele La Malfa, Claudio Caprioli, et al. Deep Neural Networks as Complex Networks
. arXiv:2209.05488
, 2022
探讨了不同网络结构对神经网络功能和学习能力的影响。
二、神经科学视角
本视角下关注的核心问题:
bio-inspired machine learning是一个非常广阔的领域,通过一期读书会来囊括诸多代表性研究是不够的,因此,我们希望在这个部分只节选生物启发机器学习中具有复杂性味道的研究范例进行学习与讨论。例如:Hebbian Learning和Anti-Hebbian Learning。
本视角下讨论的核心理论:Hebbian Learning、Anti-Hebbian Learning、
脉冲神经网络
推荐人:张章
-
Alemanno, Francesco, et al. "Supervised hebbian learning."
Europhysics Letters
141.1 (2023): 11001. https://iopscience.iop.org/article/10.1209/0295-5075/aca55f/meta
Hebbian Learning指人们从生物神经网络中发现了一条简单有趣的规则,即Fire together,wire together。这个简单的规则可以用于指导神经网络的结构设计和训练。
-
Choe, Yoonsuck. "Anti-hebbian learning."
Encyclopedia of Computational Neuroscience
. New York, NY: Springer New York, 2022. 213-216. https://link.springer.com/referenceworkentry/10.1007/978-1-0716-1006-0_675
Anti hebbian learning则是另一条与之相反的规则,即尽可能减少神经元的协同激活,从而起到节省能量的作用,相比于Hebbian Leraning,Anti Hebbian Leraning是一个更晚发现的规则,但同样是简单规则指导神经网络结构和动力学的可实践的范例。
三、统计物理视角
本视角下关注的核心问题一:
所有研究关注的核心问题都是如何理解神经网络在初始化、优化(即训练)和部署阶段的行为所符合的物理规律。例如,在初始化时是否有可能使得神经网络避免梯度爆炸或梯度消失?在训练过程中,神经网络是否可以在特点优化器的作用下避开局部极小值,应该如何泛化?在部署阶段,是否可以依据特定统计物理规则对神经网络参数进行筛选和量化以降低计算量?
本视角下讨论的核心理论:平均场理论、重整化群
推荐人:田洋
神经网络的平均场理论的核心目的在于理解神经网络在无限宽的条件下的动力学行为,确定神经网络在初始化和训练阶段的最优条件(例如最优初始化方案等)。以下是关于
人工神经网络的平均场理论
的论文,前面为三篇核心文献,分别对应平均场理论、实验效果、经典平均场理论的局限和推广;后面两篇为补充文献。
-
Xiao, Lechao, et al. "Dynamical isometry and a mean field theory of cnns: How to train 10,000-layer vanilla convolutional neural networks."
International Conference on Machine Learning
. PMLR, 2018. https://proceedings.mlr.press/v80/xiao18a
-
Schoenholz, Samuel S., et al. "Deep information propagation."
arXiv preprint arXiv:1611.01232
(2016). https://arxiv.org/abs/1611.01232
-
Weng, K., Cheng, A., Zhang, Z., Sun, P., & Tian, Y. (2023). Statistical physics of deep neural networks: Initialization toward optimal channels.
Physical Review Research
,
5
(2), 023023. https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.5.023023
-
Pennington, J., Schoenholz, S., & Ganguli, S. (2018, March). The emergence of spectral universality in deep networks. In
International Conference on Artificial Intelligence and Statistics
(pp. 1924-1932). PMLR. https://proceedings.mlr.press/v84/pennington18a.html
-
Yang, G., & Schoenholz, S. (2017). Mean field residual networks: On the edge of chaos.
Advances in neural information processing systems
,
30
. https://proceedings.neurips.cc/paper_files/paper/2017/hash/81c650caac28cdefce4de5ddc18befa0-Abstract.html
-
Bahri, Y., Kadmon, J., Pennington, J., Schoenholz, S. S., Sohl-Dickstein, J., & Ganguli, S. (2020). Statistical mechanics of deep learning.
Annual Review of Condensed Matter Physics
,
11
, 501-528. https://www.annualreviews.org/content/journals/10.1146/annurev-conmatphys-031119-050745
重整化群这一个方向的核心研究目的在于从信息论或概率论的角度理解重整化群的设计原理,并结合新的数学工具设计更具有泛用性或计算性能更加高的重整化群,以在原始理论无法涵盖的场景中验证系统是否处于临界点或是否符合特定标度关系。下面5篇文章是
重整化群
和机器学习想法交融或用于解决数据科学问题的代表。
-
Kline, Adam G., and Stephanie E. Palmer. "Gaussian information bottleneck and the non-perturbative renormalization group."
New journal of physics
24.3 (2022): 033007. https://iopscience.iop.org/article/10.1088/1367-2630/ac395d/meta
-
Cheng, Aohua, Pei Sun, and Yang Tian. "Simplex path integral and renormalization group for high-order interactions."
arXiv preprint arXiv:2305.01895
(2023). https://arxiv.org/abs/2305.01895
-
Lenggenhager, Patrick M., et al. "Optimal renormalization group transformation from information theory."
Physical Review X
10.1 (2020): 011037. https://journals.aps.org/prx/abstract/10.1103/PhysRevX.10.011037
-
Xu, Yizhou, Yang Tian, and Pei Sun. "Fast renormalizing the structures and dynamics of ultra-large systems via random renormalization group." (2024). https://www.researchsquare.com/article/rs-3888068/v1
-
Gordon, Amit, et al. "Relevance in the renormalization group and in information theory."
Physical Review Letters
126.24 (2021): 240601. https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.126.240601
本视角下关注的核心问题二:
利用统计物理对复杂系统进行度量这个研究方向上也有了很多新的进展,如使用自由能度量复杂网络的信息传播速度,使用熵度量复杂网络对抗扰动的能力,使用热机效率度量复杂网络的效率等。而因为我们有一个信仰,“一个好的AI系统首先是一个好的复杂系统”,因此这部分度量方式也可以去学习,并有助于指导AI系统的设计。
本视角下讨论的核心理论:熵、自由能原理
推荐人:张章、牟牧云
推荐论文:9篇
-
Ghavasieh, Arsham, Carlo Nicolini, and Manlio De Domenico. "Statistical physics of complex information dynamics."
Physical Review E
102.5 (2020): 052304. https://journals.aps.org/pre/abstract/10.1103/PhysRevE.102.052304
-
Ghavasieh, Arsham, and Manlio De Domenico. "Generalized network density matrices for analysis of multiscale functional diversity."
Physical Review E
107.4 (2023): 044304. https://journals.aps.org/pre/abstract/10.1103/PhysRevE.107.044304
-
Ghavasieh, Arsham, and Manlio De Domenico. "Enhancing transport properties in interconnected systems without altering their structure."
Physical Review Research
2.1 (2020): 013155. https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.2.013155
-
Ghavasieh, Arsham, and Manlio De Domenico. "Diversity of information pathways drives sparsity in real-world networks."
Nature Physics
(2024): 1-8. https://www.nature.com/articles/s41567-023-02330-x
自由能的概念起源于统计物理,后被引入机器学习和信息加工领域,表示对世界表征状态与其真实状态间的差异。自由能原理认为,所有可变的量,只要作为系统的一部分,都会为最小化自由能而变化。本质上,自由能原理希望阐明在生物系统中实现自组织的可能性。在集智“自由能原理与强化学习”读书会中对以自由能原理为基础的主动推断框架进行了详细的介绍,更多偏向从贝叶斯定理出发的认知的视角。在本次AI by Complexity读书会中我们将更多从随机动力系统以及非平衡稳态等视角出发探究自由能原理与智能体感知和行动之间的联系,这对于构建决策AI智能体或许能够带来新的启发。以下5篇论文与自由能原理相关。
-
Karl, Friston. "A free energy principle for biological systems."
Entropy
14.11 (2012): 2100-2121. https://www.mdpi.com/1099-4300/14/11/2100
生命何以存在?这篇文章从随机动力系统的视角出发,基于
变分自由能
的最小作用量原理,试图解释生命体能够抵抗环境中无序的波动的内在逻辑,并建立了它与信息瓶颈方法在形式上等价的条件。
-
Friston, Karl, and Ping Ao. "Free energy, value, and attractors."
Computational and mathematical methods in medicine
2012 (2012). https://pubmed.ncbi.nlm.nih.gov/22229042/
自由能原理
认为行动和感知可以被理解为最小化感觉样本的自由能,而
强化学习
源于行为主义和工程学,假定代理者优化策略以最大化未来的奖励。这篇文章试图将自由能原理以及强化学习针对行动和感知的两种表述联系起来。
-
Friston, Karl, et al. "The free energy principle made simpler but not too simple."
Physics Reports
1024 (2023): 1-29. https://www.sciencedirect.com/science/article/pii/S037015732300203X
这篇论文提供了
自由能原理
的简洁推导。自由能量原理是关于自组织和感知行为的规范性描述,它将自组织描述为最大化贝叶斯模型证据,将感知行为描述为最优贝叶斯设计和决策。这篇文章随机动力系统的朗之万方程描述开始,最终得出可以被看作是有感知的物理学的贝叶斯力学。
-
Mazzaglia, Pietro, et al. "The free energy principle for perception and action: A deep learning perspective."
Entropy
24.2 (2022): 301. https://www.mdpi.com/1099-4300/24/2/301
这篇文章建立了
自由能原理
与深度学习世界模型之间的联系,并对强化学习世界模型架构设计的不同方面进行了讨论。
-
Hafner, Danijar, et al. "Action and perception as divergence minimization."
arXiv preprint arXiv:2009.01791
(2020). https://arxiv.org/abs/2009.01791
基于
自由能原理
以及自由能原理的具体实现主动推断框架,启发了差异最小化(divergence minimization)的想法,从差异最小化的角度出发,很多深度学习强化学习算法可以看作是智能体在最小化内在模型分布与目标分布之间的差异。从这个角度出发可以将大量已有的的深度学习强化学习(更多针对强化学习)算法进行一个统一的分类,并且能够启发我们设计新的强化学习算法。
本视角下关注的核心问题三:
PMI LAB致力于寻找生物和人工智能的物理原理,坚信赋予数学优美性的理论可以帮助人们洞察事物深层次的本质。近几年来人工智能的涌现能力受到社会各界的高度关注,正成为新一轮科技革命的驱动力。如何更好地理解这种涌现能力?如何基于物理学第一性原理创造更安全、可靠、通用的人工智能,进而理解人类心智的形成?本实验室从统计物理的视角,利用平均场理论的思想来寻找能够联系微观神经活动和宏观智能的物理量,并揭示智能模型中哪些参数变化会导致系统状态的显著影响。具体而言,本实验室从玩具模型的平衡系综分布和非平衡动力学两个方向着手研究:平衡态方法有助于刻画神经网络集体行为的相变,即对称性破缺,以及优化算法背后的能量景观;而非平衡动力学有助于研究网络学习和信息传播的非平衡过程,以此揭示网络动力学的物理本质。
本视角下讨论的核心理论:费米玻色机网络、随机矩阵谱计算、理论机器学习、连续学习、平均场理论
Huang H. Statistical mechanics of neural networks[M]. Springer, 2021.
以下分类按照⻩海平老师对智能原理的八大挑战(Eight challenges in developing theory of intelligence, ArXiv: 2306.11232)进行分类,其中关于因果学习、意识理论还未有正式成果。
【一、表征学习 Representation learning】
Huang H. Mechanisms of dimensionality reduction and decorrelation in deep neural networks[J]. Physical
Review E, 2018, 98(6): 062313. https://journals.aps.org/pre/abstract/10.1103/PhysRevE.98.062313
J. Zhou and H. Huang,
Weakly correlated synapses promote dimension reduction in deep neural networks
, Phys. Rev. E 103, 012315 (2021). https://journals.aps.org/pre/abstract/10.1103/PhysRevE.103.012315