专栏名称: 神经现实

神经现实是公益的科普翻译小组，致力于译介神经科学、认知科学和精神病学领域内的深度文章和前沿研究，并关注生物、医学、哲学、技术和社会。

自由能原理与强化学习读书会启动：探索感知和行动的统一原理

神经现实 · 公众号 · · 2024-03-10 06:01

正文

导语

自由能原理被认为是“自达尔文自然选择理论后最包罗万象的思想”，它试图从物理、生物和心智的角度提供智能体感知和行动的统一性规律，从第一性原理出发解释智能体更新认知、探索和改变世界的机制，从而对人工智能，特别是强化学习世界模型、通用人工智能研究具有重要启发意义。

集智俱乐部联合北京师范大学系统科学学院博士生牟牧云，南京航空航天大学副教授何真，以及骥智智能科技算法工程师、公众号 CreateAMind 主编张德祥，共同发起「自由能原理与强化学习读书会」，希望探讨自由能原理、强化学习世界模型，以及脑与意识问题中的预测加工理论等前沿交叉问题，探索这些不同领域背后蕴含的感知和行动的统一原理。读书会从3月10日开始，每周日上午10:00-12:00，持续时间预计8-10周。欢迎感兴趣的朋友报名参与！

读书会背景

生物体和智能体如何感知和适应世界以维持生存，是心理学、神经科学和人工智能等多个领域的核心问题。关于生物体的适应性、神经过程和认知机制，存在两种不同的观点：

1. 特异性观点：认为不同生物的适应性、神经过程（如突触交换、大脑网络）和认知机制（如感知、注意力、社会互动）是独特的，需要特定的解释。这导致了哲学、心理学、神经科学、行为学、生物学、人工智能和机器人学等领域理论的发展，但难以实现这些理论的统一。

2. 统一性原理观点：提出生物体的行为、认知和适应可能基于一些基本原则，可从第一性原理统一解释。这一观点的支持者寻找能够统一解释众多看似不同的生物和认知现象的原理。

自由能原理 （Free Energy Principle）就是从统一性原理观点出发的这样一种尝试，它试图从物理、生物和心智的角度提供智能体感知和行动的统一性规律。类似于物理学中的哈密顿最小作用量原理，自由能原理认为任何自组织系统都必须最小化其自由能。它将感知和行动视为最小化自由能的互补方面：感知通过贝叶斯估计更新智能体的信念来最小化变分自由能，而行动则通过最小化期望自由能来改变世界，以使观测与智能体的期望相符。基于自由能原理的感知行动理论也被称为主动推理（Active Inference）。

人工智能领域中与自由能原理密切相关的是 强化学习中的世界模型 （World Model）。在世界模型中，智能体首先通过观测数据推断隐状态的动力学模型，这对应于自由能原理中变分自由能的最小化。学习到世界模型后，智能体基于此模型进行规划或探索，对应于自由能原理中期望自由能的最小化。面对复杂的环境，智能体往往需要学习一个多尺度的世界模型，世界模型的多尺度特性涉及时间和空间维度，以及状态和动作两个重要层面。

在本次读书会中，我们将探讨自由能原理下感知与行动的统一框架，涉及变分自由能、期望自由能、注意力与显著性，以及模型学习和结构学习等相关概念。同时，我们还将深入探讨强化学习世界模型的学习与探索，多尺度世界模型、分层强化学习等相关概念，并结合自由能原理重新审视强化学习中智能体的感知与行动。最后，我们希望从脑与意识的角度出发，探讨与自由能原理相关的预测加工理论如何解释和启发我们对认知和主观体验的理解。

读书会框架

此次读书会主要分为三个部分，第一部分将探讨自由能原理下感知与行动的统一框架，第二部分从自由能原理视角重新看待强化学习，第三部分从脑与意识角度出发，探讨与自由能原理相关的预测加工理论。

与复杂系统的关系

自由能原理提供了一个统一的理论框架，用于理解和模拟复杂系统的自组织、自适应行为，特别是在生物系统和大脑功能方面。它基于统计物理和热力学，认为系统通过最小化内部状态与环境状态之间的自由能差异来维持稳定。这一原理不仅解释了感知、行为和学习的统一过程，还对复杂系统建模、认知过程和意识的理解，以及生物和人工智能系统的设计原则产生了深远影响，跨越了生物学、神经科学、心理学和人工智能等多个领域，为揭示这些系统背后的统一原理提供了有力的工具。

读书会发起人

牟牧云 ，北京师范大学系统科学学院博士生，张江老师因果涌现研究小组成员。研究方向：复杂系统建模与调控、强化学习世界模型。

学者主页：https://pattern.swarma.org/user/29

何真，南京航空航天大学副教授。研究方向：不确定复杂非线性系统的多尺度反馈控制。

学者主页：https://pattern.swarma.org/user/76612

张德祥 ，骥智智能科技算法工程师，公众号 CreateAMind 主编。研究方向：自由能原理，主动推理，AGI。

学者主页：https://pattern.swarma.org/user/71635

本季读书会运营负责人

梁金，统计物理硕士，集智俱乐部副主编。兴趣领域：物理，因果涌现，科普写作。

读书会讲者招募

读书会按照暂定框架贯次展开，每一期的分享交流以论文、专著为基础，可以是针对某一篇或几篇相关文章的深度解读，也可以是针对某个领域偏综述性的介绍（详情见后文参考文献）。我们欢迎从事相关领域研究的老师、同学报名参与读书会分享，特别欢迎来自物理、复杂系统建模、人工智能、神经科学等有交叉学科背景的朋友参加，从不同视角深入探讨。参与读书会分享需要一定的背景知识与论文阅读能力，如果你缺少研究基础但兴趣特别浓厚，也欢迎报名。（参看读书会共创任务，详情请咨询读书会运营负责人）

报名参与读书会

本读书会适合参与的对象

基于复杂系统相关学科研究，对自由能原理、强化学习世界模型、脑认知与意识理论等主题有有浓厚兴趣的科研工作者；
具有一定复杂系统建模、人工智能、神经科学、物理、控制论、信息论、生物等相关领域学科背景，想进一步进行交叉学科研究与交流的学者、研究生、本科生。
对复杂科学充满激情，对认知、智能和意识问题充满好奇的探索者，且具备一定的英文文献阅读能力。
想锻炼自己科研能力或者有出国留学计划的高年级本科生及研究生。

本读书会谢绝参与的对象

为确保专业性和讨论的聚焦，本读书会谢绝脱离读书会文本和复杂科学问题本身的空泛的哲学和思辨式讨论；不提倡过度引申在社会、人文、管理、政治、经济等应用层面的讨论。 我们将对参与人员进行筛选，如果出现讨论内容不符合要求、经提醒无效者，会被移除群聊并对未参与部分退费，解释权归集智俱乐部所有。

运行模式

本季读书会预计讨论分享8-10次，以主题分享的形式按照暂定框架贯次展开；

每周进行线上会议，由读书会成员以PPT讲解的形式领读相关论文，与会者可以广泛参与讨论，会后可以获得视频回放持续学习。

举办时间

从2024年3月10日开始，每周日上午10:00-12:00，持续时间预计8-10周 。

我们也会对每次分享的内容进行录制，剪辑后发布在集智斑图网站上，供读书会成员回看，因此报名的成员可以根据自己的时间自由安排学习时间。

参与方式

此次读书会为线上闭门读书会，采用的会议软件是腾讯会议（请提前下载安装）。 在扫码完成报名并添加负责人微信后，负责人会将您拉入交流社区（微信群），入群后告知具体的会议号码。

报名方式

第一步：扫码填写报名信息

扫码报名读书会

第二步：填写信息后，付费299元。

第三步：添加负责人微信，拉入对应主题的读书会社区（微信群）。

本读书会可开发票，请联系相关负责人沟通详情。

针对学生的退费机制

读书会通过共学共研的机制，围绕前沿主题进行内容梳理和沉淀，所以针对于学生，可以通过参与共创任务，获取积分，积分达到退费标准之后，可以直接退费。

加入社区后可以获得的资源

在线会议室沉浸式讨论：与主讲人即时讨论交流
交互式播放器高效回看：快速定位主讲人提到的术语、论文、大纲、讨论等重要时间点
高质量的主题微信社群：硕博比例超过80%的成员微信社区，闭门夜谈和交流
超多学习资源随手可得：从不同尺度记录主题下的路径、词条、前沿解读、算法、学者等
参与社区内容共创任务：读书会笔记、百科词条、公众号文章、论文解读分享等不同难度共创任务，在学习中贡献，在付出中收获。
共享追踪主题前沿进展：在群内和公众号分享最新进展，领域论文速递

参与共创任务，共建学术社区

读书会笔记 ：在交互式播放器上记录术语和参考文献
集智百科词条 ：围绕读书会主题中重要且前沿的知识概念梳理成词条。例如：

论文解读分享 ：认领待读列表中的论文，以主题报告的形式在社区分享
公众号文章 ：以翻译整理或者原创生产形式生产公众号文章，以介绍前沿进展。例如：

论文翻译

科普文章翻译

讲座整理

PS：具体参与方式可以加入读书会后查看对应的共创任务列表，领取任务，与运营负责人沟通详情，上述规则的最终解释权归集智俱乐部所有。

阅读材料

读书会阅读材料较多，为了更好地阅读体验，可扫描下方二维码进入集智斑图页面，阅读并收藏感兴趣的论文。

https://pattern.swarma.org/article/289

1. 自由能原理

自由能原理及主动推理的主要目标是寻求解决如下问题：当生物体与它们的环境进行适应性交换时，它们是如何生存的？活的生物体不断与它们的环境（包括其他生物体）进行相互作用。它们发出改变环境的动作，并接受来自环境的感官观察，它们只能通过对行动-感知反馈回路施加适应性控制来维持它们的身体完整性。这意味着采取行动获得与预期结果或目标相对应的感官观察，或调整认知对世界形成更好的理解。

在进化过程中，生物体设法发展出适应性策略来面对生存的基本挑战，从简单的生物体如细菌遵循营养梯度，到更高级的生物体如人类通过计划实现更远的目标。这些策略在认知复杂程度上有所不同，并因其选择和运作的时间尺度而异——从对环境威胁的简单反应，在进化时间尺度上出现的形态适应，到在文化形成或发展学习期间建立的行为模式，直到那些需要在与行动和感知（如注意力和记忆力）相当的时间尺度上运作的认知过程。

传统观点认为，不同的生物适应、神经过程（如突触交换和大脑网络）和认知机制（如感知、注意力、社会互动）是高度特异的，需要专门的解释。这导致哲学、心理学、神经科学、动物行为学、生物学、人工智能和机器人学等领域的理论激增，几乎没有统一的希望。另一种观点则认为，尽管有不同的表现形式，但活的生物体的行为、认知和适应的核心方面都可以从第一原理得到一致的解释。自由能主动推理就是从第一原理推导的理解大脑和思维的规范方法。

此次读书会第一部分，我们将首先对 Karl Friston 等人撰写的书籍《主动推理：心智、脑和行为的自由能原理》做概览介绍，之后结合其他前沿理论成果对自由能原理做详细介绍和推导，并探讨自由能原理可以为人工智能领域带来哪些启发。

自由能原理概念图：感知和行动让模型和世界之间的差异最小化

1.1 自由能原理概览介绍

Parr, Thomas, Giovanni Pezzulo, and Karl J. Friston. Active inference: the free energy principle in mind, brain, and behavior . MIT Press, 2022.

《主动推理：心智、脑和行为的自由能原理》，自由能原理入门的首选读物

《主动推理》书中第一章所描述的“主动推理的两条道路”

1.2 自由能原理详细介绍

Friston, Karl, James Kilner, and Lee Harrison. A free energy principle for the brain. Journal of physiology-Paris 100.1-3 (2006): 70-87.

自由能原理奠基性论文。本文从统计物理学出发得到关于感知推理和学习的模型，展示了感知过程是符合自由能原理的系统涌现行为的一个方面。这里考虑的自由能度量了作用于系统的环境数量的概率分布与系统构型的任意分布之间的差异。系统有两种方式来最小化自由能，通过改变其构型以影响对环境的采样方式，或者改变它所编码的分布。这些变化分别对应于行动和感知，并导致与环境的适应性交换，这是生物系统的特征。文章研究了如何通过最小化自由能来解释大脑的动力学和结构。

Friston, K. The free-energy principle: a unified brain theory ?. Nat Rev Neurosci 11 , 127–138 (2010). https://doi.org/10.1038/nrn2787

自由能原理经典奠基性综述

Smith, Ryan, Karl J. Friston, and Christopher J. Whyte. A step-by-step tutorial on active inference and its application to empirical data . Journal of mathematical psychology 107 (2022): 102632.

主动推理框架可以被描述为部分可观测马尔可夫决策过程（POMDP），这种表述成为建模神经认知过程的有用方法。本文提供了一个详细教程，介绍了基本概念、数学和编程实现，演示如何使用模型进行行为和神经建模，并将实验模型拟合到行为数据中。

生成过程（真实世界中发生的事实）与生成模型（智能体脑中关于世界的信念）

Friston K J, Salvatori T, Isomura T, et al. Active Inference and Intentional Behaviour[J]. arXiv preprint arXiv:2312.07547, 2023.

理论生物学的进展表明，基础认知和感知行为分别是体外细胞培养和神经元网络的涌现特性。这种神经网络在没有奖励或强化的情况下自发学习结构化行为。本文通过自由能量原理视角对这种自组织的有目的行为进行了刻画。

Friston, Karl, et al. The free energy principle made simpler but not too simple. Physics Reports 1024 (2023): 1-29. https://www.sciencedirect.com/science/article/pii/S037015732300203X

这篇论文提供了自由能原理的简洁推导。自由能量原理是关于自组织和感知行为的规范性描述，它将自组织描述为最大化贝叶斯模型证据，将感知行为描述为最优贝叶斯设计和决策。本文从世界的随机动力系统的朗之万方程描述开始，最终得出可以被看作是有感知的物理学的贝叶斯力学。

贝叶斯力学与主动推理

Smith, Ryan, Maxwell JD Ramstead, and Alex Kiefer. Active inference models do not contradict folk psychology. Synthese 200.2 (2022): 81.

对自由能原理公式的含义进行了细致深入的讲解

Pezzulo, Giovanni, Thomas Parr, and Karl Friston. Active inference as a theory of sentient behavior. Biological Psychology (2024): 108741. https://www.sciencedirect.com/science/article/pii/S0301051123002612

最新综述文章回顾自由能原理的历史并展望未来

更多相关论文

Friston, K., Rigoli, F., Ognibene, D., Mathys, C., Fitzgerald, T., & Pezzulo, G. (2015). Active inference and epistemic value. Cognitive neuroscience , 6 (4), 187-214.
van de Laar, T., Koudahl, M., van Erp, B., & de Vries, B. (2022). Active Inference and Epistemic Value in Graphical Models. Frontiers in Robotics and AI , 9 , 794464.
Ororbia, A., & Friston, K. (2023). Mortal computation: A foundation for biomimetic intelligence. arXiv preprint arXiv:2311.09589 .
Andrews, Mel. The math is not the territory: navigating the free energy principle. Biology & Philosophy 36.3 (2021): 30.
Friston, Karl, et al. Active inference: a process theory. Neural computation 29.1 (2017): 1-49.
Friston, Karl, et al. Path integrals, particular kinds, and strange things. Physics of Life Reviews (2023).

集智百科：自由能原理

1.3 自由能原理的工程实现

Feldman, Harriet, and Karl J. Friston. Attention, uncertainty, and free-energy. Frontiers in human neuroscience 4 (2010): 215.

这篇文章通过不确定性和自由能原理的视角探讨了注意力的概念，提出注意力可以被理解为在分层感知过程中推断出的不确定性或精确度水平。

De Vries, Bert, and Karl J. Friston. A factor graph description of deep temporal active inference. Frontiers in computational neuroscience 11 (2017): 95.
Friston, Karl J., Thomas Parr, and Bert de Vries. The graphical brain: Belief propagation and active inference. Network neuroscience 1.4 (2017): 381-414.
Da Costa, Lancelot, et al. Active inference on discrete state-spaces: A synthesis. Journal of Mathematical Psychology 99 (2020): 102447.