杜凯 | 作者
Yin Ava | 整理
目录
1.1 GPT的启发
1.2 进化中的启示
1.3 大脑建模的两条路径
2.1 大脑精细模型本质上是基于偏微分方程的数学系统
2.2 单个神经元由于丰富的离子通道和树突结构能够执行复杂的计算
2.3 大脑精细模型能独立生成新理论,是与实验科学平行的理论体系
3.1 与人工智能的关系
3.2 单个神经元有强大的计算能力和逻辑推理能力
4.1 大脑精细模拟的核心挑战
4.2 计算效率提升-传统方法
4.3 计算效率提升-并行化方法
1.1 GPT的启发
在人工智能领域,构建能模拟甚至超越人类智能的系统一直是科技发展的终极目标。随着技术的进步,我们已经开始尝试探索意识的生命基础——这不仅是科技的挑战,更是对人类文明的一次深刻洞察。
最新的进展中,特别是在大型语言模型如GPT-3的开发上,我们看到了人工智能如何接近这一挑战。GPT-3模型拥有超过1750亿个参数,并且在大规模的数据集上进行了预训练,在多种自然语言处理任务上展示了类似人类的智能水平。这些成果揭示了一个关键的科学启发:“more is different”。当系统的规模达到一定程度时,它的行为不仅仅是组件行为的简单叠加,而是能够自发地涌现全新的性质,表现出质的不同。
大语言模型中的涌现能力。|来源:Emergent Abilities of Large Language Models [2022] Jason WeiYi TayWilliam Fedus et al.
生成式AI的另一个关键启发是规模法则。规模法则描述了模型性能(如语言理解和生成能力)随着模型大小(即参数数量)的增加而提高,性能可以通过这一关系进行预测。这是因为更大的模型可以从更多的数据中学习更复杂的模式,从而在各种任务上表现更好。
生成式AI的规模法则
在人脑和意识的层面,规模法则是否在人脑中起作用?智能是否是涌现的?能否通过这种方式模拟人类的意识?这些问题需要进一步思考和验证。
1.2 进化中的启示
从进化的角度来看,随着生物体的进化,神经系统的规模和复杂性逐步增加,不仅体现在整个神经网络的规模扩展上,也体现在单个神经元的结构和功能复杂性的演变上。对于理解人类意识的产生以及如何在人工智能中模拟类似的智能,这些进化的启示具有重要的参考价值。复杂的神经网络结构和单个神经元的复杂计算能力可能是高级智能和意识形成的重要基础。
从进化中得到的启示:网格规模变化
从进化中得到的启示:单个神经元复杂度的变化
1.3 大脑建模的两条路径
从神经元的复杂性角度出发,大脑建模有两条不同的路径:人工神经网络路径和真实神经元模拟路径。
人工神经网络路径的核心理念是将神经元简化为一个点,用简单的数学模型来模拟神经元的输入输出行为,然后通过大量的连接形成一个神经网络。这种方法抽象了神经元的复杂结构,只保留其核心的计算功能。早期的麦卡洛克-皮茨神经元、感知器、以及现代的深度神经网络(如LSTM、Transformer等)都属于这一路径。
真实神经元模拟路径是采取一种还原论的方法,将大脑中的神经元精细地模拟,保留每一个神经元的物理和生物特性,力图再现生物神经元的真实行为。例如,H-H模型(Hodgkin-Huxley Model)和浦肯野细胞的多仓室模型(Multi-Compartmental Model of a Purkinje Cell)都是试图从生物学角度精确模拟神经元内部的电信号生成和传递的模型。这些模型详细描述了神经元各部分(如树突、轴突、胞体)的电特性和化学行为。精细的生物物理神经元模型不仅仅是对神经元的生物学再现,它们实际上可以直接作为一个机器学习系统。这些模型中蕴含的复杂非线性动力学和信号处理能力,使其能够执行复杂的计算任务。
大脑建模的两条路径|An active membrane model of the cerebellar Purkinje cell II. Simulation of synaptic responses. E. Schutter, J. Bower
2.1 大脑精细模型本质上是基于偏微分方程的数学系统
H-H模型 | 电缆理论(Cable theory) | 精细神经元模型 |
A quantitative description of membrane current and its application to conduction and excitation in nerves [1952] A. L.
Branching dendritic trees and motoneuron membrane resistivity. [1959] W. Rall
H-H 模型由霍奇金和赫胥黎在1952年提出,主要用于描述神经元的电信号生成。这个模型通过一组微分方程计算膜电位的变化,解释了神经元中的离子通道(如钠通道和钾通道)如何通过控制电流流动来产生动作电位。电缆理论(cable theory)由 Rall 在1959年提出,基于偏微分方程描述了电压在电阻和电容作用下的时空变化特性,主要用于描述神经信号沿树突和轴突的传播。神经元的树突和轴突可以被视为一条电缆,电流在其内部传播时会因电阻和电容的作用而逐渐衰减。电缆理论是生物学领域少数理论先于实验验证的领域之一,通过理论推导可以得出有关神经元电活动的时间和空间基本性质,这些理论预测通过后续的实验得到了验证;精细神经元模型结合了H-H模型和电缆理论,利用偏微分方程精确描述神经元内部复杂的电信号产生与传播过程,进一步发展为一种包含复杂树突和离子通道的精细模型。
这些模型共从微观的离子通道活动到宏观的电信号在神经元结构中的传播,再到整体的精细模拟,为理解神经元的电活动提供了不同的层次角度。这些理论工具对深入理解神经计算机制和生物神经网络的复杂性具有重要意义,也为现代人工智能系统的设计和优化提供了宝贵的灵感。
2.2 单个神经元由于丰富的离子通道和树突结构能够执行复杂的计算
树突计算理论
神经元的树突在信息处理中具有重要作用。树突不仅仅是被动接收信号的结构,它们具有非常复杂的计算功能,可以通过特定的生物物理机制对输入信号进行处理,实现多种逻辑和非线性操作:
树突的被动特性使得大部分信号会在树突上传播时被滤除。这意味着树突能够选择性地衰减远端的信号,使得只有特定强度的信号能够被有效的从树突远端传递到胞体。这对于噪声过滤和信号选择有重要意义。
兴奋性和抑制性输入之间的交互作用可以实现复杂的逻辑操作。树突通过不同的输入信号组合和整合,能够执行类似逻辑门的功能,从而对输入信号做出更复杂的处理。这使得神经元可以通过树突进行特定信息的计算和选择,赋予神经元更强的选择性和处理能力。
- 重合检测(Coincidence Detection)
树突可以检测顶树突和基树突之间的信号同步性,即重合检测(Coincidence Detection)。这种机制是通过反向传播的动作电位(backpropagating action potential)来实现的。当顶树突同时受到刺激时,反向传播的动作电位会使这些信号的强度增加,从而增强神经元对多个输入同步出现的敏感性。这种重合检测对时间同步信息的处理尤为重要,在感知和记忆过程中发挥关键作用。
树突还可以非线性地放大局部的兴奋性输入信号,从而对特定的输入做出放大响应。这种非线性放大使得数量较少的兴奋性突触信号也能够对神经元的整体反应产生显著影响。
树突信息处理的分类|classes of dendritic information processing. Alexandre PayeurJean-Claude Béïque et al.
非线性树突整合 vs 线性胞体整合|classes of dendritic information processing Alexandre PayeurJean-Claude Béïque et al.
树突具有丰富的信号处理能力,使得神经元可以对输入信号进行复杂的局部处理。基于树突处理不同输入信号的方式对树突的信息处理能力进行分类,可以分为4类:
- 时空滤波( Spatiotemporal Filtering)
树突能够对输入信号进行时空上的滤波,使信号在传输过程中根据其时间和空间特性进行衰减或放大。
- 信息选择(Information Selection)
树突能够通过集群输入和树突尖峰(如NMDA尖峰)来执行信息选择,选择性地放大或传递某些输入信号,从而对重要信号进行特定响应。
- 信息路由(Information Routing)
树突具备信息路由的能力,可以由抑制性突触来决定不同输入信号的传输路径,以便进行特定的处理。
- 信息多路复用(Information Multiplexing)
树突可以实现信息多路复用,同时处理来自不同来源的信号,这些信号可能包含不同的信息类别,从而使单个神经元具备对多种输入进行整合处理的能力。
从信息整合的角度来看,细胞体通常对输入信号进行线性整合,类似于人工神经网络中的ReLU激活函数。线性整合意味着输入信号的影响是简单的相加关系,最终的输出与输入呈线性相关。而树突能够对局部的兴奋性输入信号进行非线性放大,这种放大是非线性的,意味着多个输入信号的组合效果并不仅仅是其线性加和,而是可能通过叠加产生增强的响应或者减弱的响应。树突的非线性整合和细胞体的线性整合结合起来,使得神经元可以对输入信号进行细致且多样化的处理,同时保持整体的稳定性。
2.3 大脑精细模型能独立生成新理论,是与实验科学平行的理论体系
纹状体中棘神经元非线性树突计算。|Synaptically driven state transitions in distal dendrites of striatal spiny neurons [2011] Joshua L. PlotkinMichelle DayD.
Cell-type–specific inhibition of the dendritic plateau potential in striatal spiny projection neurons [2017] Kai Du Yu-Wei Wu J. Kotaleski et al.
电缆理论对时序性抑制的预测。|Synaptically driven state transitions in distal dendrites of striatal spiny neurons [2011] Joshua L. PlotkinMichelle DayD.
Cell-type–specific inhibition of the dendritic plateau potential in striatal spiny projection neurons [2017] Kai Du Yu-Wei Wu J. Kotaleski et al.
中棘神经元(medium spiny neurons, MSNs)在纹状体远端突触激活后,观察到了树突脉冲的形成,这些树突脉冲可能与大脑对特征的编码密切相关 (Plotkin et.al 2011) 。这些脉冲是由于突触输入特别是NMDA受体的激活和电压依赖性钙通道的作用,这些元素共同作用产生了再生性电位变化,即树突平台电压。这种现象与Du等人的精细神经元模型的结果高度一致(Du et.al 2017)。
Du等人在精细模型中发现,树突远端位置的抑制性输入对树突平台电压的影响与时间有很强的关联性。这种现象被称为“时序性抑制”。如果抑制性输入的时间与NMDA受体的激活非常接近,那么只会产生很小的分流效应(shunting effect);而如果时间上相差较大,则可能完全抑制掉整个树突平台电压。这种现象表明树突的活性反应对抑制性输入的时序非常敏感。之后斯坦福实验室通过在同一个树突上激活兴奋性和抑制性突触,验证了这种时序性抑制的效果。
基于NMDA镁离子阻滞机制的模型预测。|Cell-type–specific inhibition of the dendritic plateau potential in striatal spiny projection neurons [2017] Kai DuYu-Wei WuJ. Kotaleski et al.Timed Synaptic Inhibition Shapes NMDA Spikes, Influencing Local Dendritic Processing and Global I/O Properties of Cortical Neurons. [2017] Michael DoronG. ChindemiIdan Segev et al.时序性抑制在皮层锥体神经元中同样存在。|Cell-type–specific inhibition of the dendritic plateau potential in striatal spiny projection neurons [2017] Kai DuYu-Wei WuJ. Kotaleski et al.Timed Synaptic Inhibition Shapes NMDA Spikes, Influencing Local Dendritic Processing and Global I/O Properties of Cortical Neurons. [2017] Michael DoronG. ChindemiIdan Segev et al.
这一现象产生的机理是什么?传统上被认为主要是由于分流抑制(shunting inhibition),即抑制性输入通过增加膜电导,使得兴奋性输入引起的电位变化被削弱。然而,在精细神经元模型中发现,这一现象的产生与NMDA受体的镁离子阻滞(Mg²⁺ block)有关。具体来说,NMDA受体通道在镁离子阻滞下具有电压依赖性,当神经细胞的膜电位变得足够负时,镁离子会从NMDA受体的通道中移除,从而允许钙离子和其他离子流入神经元,引发树突平台电位的产生。这种过程使得树突的活性反应对时间上的抑制性输入非常敏感。模型中进一步发现,如果移除NMDA的镁离子阻滞(NMDA Mg²⁺ block),则时序性抑制现象就不会再出现。这意味着镁离子阻滞是时序性抑制产生的关键因素。
实验也验证了这一模型预测,当去掉镁离子阻滞时,时序性抑制的现象确实消失了。这进一步支持了在树突水平上,NMDA受体及其镁离子阻滞在时序性抑制中的关键作用,而不仅仅是简单的分流抑制机制。后来的研究在理论上证明了时序性抑制在皮层锥体神经元中同样存在。
3.1 与人工智能的关系
反向传播(backpropagation)是用于人工神经网络的主要训练方法,通过反馈连接来传播误差信号,从而更新权重,以提高网络性能。反向传播在机器学习中取得了显著的成功,但在生物学上实施具有挑战性,因为大脑中的反馈机制与人工网络的反馈机制并不完全相同。Timothy 等人提出了一种假设,即树突平台电压、前向传递、后向传递以及动作电位的反向传播,可能共同作用来形成一种类似反向传播的学习机制。文章提出了一种称为“神经梯度活动差异(NGRAD)”的框架,认为大脑可以通过反馈连接来计算有效的突触更新,这些更新类似于反向传播的误差信号。梯度反向传播算法是人工神经网络的核心。|Backpropagation and the brain [2020] Timothy P. Lillicrap Adam SantoroGeoffrey Hinton et al.大脑中学习算法的假设。|Backpropagation and the brain [2020] Timothy P. LillicrapAdam SantoroGeoffrey Hinton et al.3.2 单个神经元有强大的计算能力和逻辑推理能力
Beniaguev等人在2021年发表于 Neuron 期刊的一项研究表明,单个精细建模的神经元可以具有相当于5到8层人工神经网络的计算能力。这意味着,单个生物神经元通过其复杂的多区室结构(multi-compartment dynamics),能够处理类似于多层人工网络的复杂输入和输出关系,具有强大的计算能力。经过梯度训练,一个精细神经元就可以做“异或”推理(XOR reasoning),展现了单个神经元上强大的逻辑推理能力。
虽然单个神经元具有非常复杂和强大的计算能力,但是当把这些单个神经元扩展到大规模网络时,研究者需要权衡模型的复杂性与网络的可扩展性。研究的未来方向是结合复杂的详细神经元模型和大规模的神经网络,引入新的特性和更复杂的行为,以更好地模拟生物大脑的功能。
单个神经元有强大的计算能力。|Single cortical neurons as deep artificial neural networks [2021] David Beniaguev模型复杂性与规模的研究进展。|Single cortical neurons as deep artificial neural networks [2021] David Beniaguev
4.1 大脑精细模拟的核心挑战
精细神经元模拟目前面临计算效率低、硬件限制和工具链不足等多方面挑战。尽管如Blue Brain Project和Allen Institute等项目在推进大规模神经元模拟上取得了进展,但现有的计算平台和硬件能力远不能满足复杂的生物神经元模型的需求。这种局限类似于深度学习在2006年之前面临的瓶颈,未来可能需要开发基于GPU的计算平台以及专门的超算和芯片设计,以更好地支持神经科学领域的大规模模拟和计算。
目前大脑精细模拟的核心挑战。|Software for Brain Network Simulations: A Comparative Study [2017] Ruben A. Tikidji-Hamburyan Vikram Narayana Tarek A. El-Ghazawi et al.当前主流的大脑模拟工具。|Software for Brain Network Simulations: A Comparative Study [2017] Ruben A. Tikidji-Hamburyan Vikram NarayanaTarek A. El-Ghazawi et al.
4.2 计算效率提升-传统方法
精细神经元模拟的瓶颈
电缆理论的数值方法
精细神经元模型在模拟时仿真速度慢,这与它模拟神经元的方式和底层的计算方法密切相关。精细神经元模型使用差分法进行电压迭代计算,这种方法计算复杂且需要处理大量的耦合关系,导致仿真需要逐步迭代多个区段,计算复杂性呈指数增长。
电缆理论在多区室神经元模型中通过数值方法计算,通过将树突和轴突分段,结合离散化的差分方法来模拟电信号在神经元内的传播。为了高效解决这种数值计算中的复杂耦合问题,可以使用海因斯矩阵,有助于将复杂的偏微分方程组转化为稀疏线性方程组,从而可以使用更高效的数值方法来求解。计算复杂度可以从O(N³)降低为O(2N)。
电缆理论中的海因斯矩阵
海因斯算法行与行之间会有依赖关系
海因斯方法是用来高效求解多区室神经元模型中的伪三对角矩阵的数值方法。由于神经元树突和轴突的分叉,矩阵中存在一些零散的非零元素,使得它不再是一个标准的三对角矩阵,而是“伪三对角矩阵”,利用这种矩阵的稀疏性,可以减少计算量。但是在使用高斯消元法消除的过程中,行与行之间会产生依赖关系,导致求解过程必须是串行的,无法实现高效的并行化。
4.3 计算效率提升-并行化方法
树突分层调度方法
GPUs显存上的优化
深度分层调度方法与传统方法的比较
为解决这个问题,Du等人提出了树突分层调度方法(Dendritic Hierarchical Scheduling)。该算法从最深的节点进行计算,该节点对其它节点的依赖程度最低。从数学上可以证明这种算法的效率是最高的。该算法既有海因斯算法同样的算法复杂度,又可以通过GPU进行并行运算。基于这个算法的分析发现,求解不同树突形态的神经元会有一个计算上界,在计算时最多16个线程就足够了,这在数学上把求解电缆理论方程的运算效率提高了10倍左右。
在实际操作时,对显存的优化至关重要。电缆理论中的区室(compartment)需要高效地按照一定类别存储在显存中,而不是随机排列,以最大化计算性能并减少存取延迟。
DHS+GPU的优化方法相较于传统的NEURON计算引擎在神经元仿真中有了明显的性能提升,相对于使用传统CPU的NEURON计算引擎,计算效率提高了高达1000倍;与当前的高效仿真引擎CoreNEURON相比,DHS+GPU的速度提高了约10倍。
小鼠大脑模拟
基于精细神经元的类脑模型
类脑模型的神经元激活
一方面,精细神经元模型可以用于大脑模拟,DHS方法极大的提高了大脑模拟的效率。Du等人用8块GPU模拟了小鼠基底核脑区的纹状体中5万个精细神经元,极大的降低了计算资源;另一方面,可以构建基于精细神经元的人工智能模型,解决深度学习任务。
对抗攻击测试的效果
为了测试基于精细神经元的类脑模型的鲁棒性,Zhang等人给输入的图片添加对抗攻击噪声,发现其鲁棒性显著高于传统的人工神经网络模型。
模型鲁棒性可能由于树突的滤波作用
突触位置对模型鲁棒性的促进作用
基于精细神经元的类脑模型为什么鲁棒性会更好?作者实验发现,当前馈连接全部投到最远端时鲁棒性比全部投到胞体附近明显更强,表明输入对树突上的位置比较敏感,因此猜测这可能是由于树突的滤波作用。
top-down vs bottom-up?|Modeling Single-Neuron Dynamics and Computations: A Balance of Detail and Abstraction [2006] A. HerzT. GollischD. Jaeger et al.The Diversity of Cortical Inhibitory Synapses [2016] Y. KubotaF. KarubeY. Kawaguchi et al.大语言模型 vs 精细大脑模型? | Modeling Single-Neuron Dynamics and Computations: A Balance of Detail and Abstraction [2006] A. HerzT. GollischD. Jaeger et al.The Diversity of Cortical Inhibitory Synapses [2016] Y. KubotaF. KarubeY. Kawaguchi et al.
目前认为构建未来通用人工智能的方式有两种:bottom-up和top-down。
Top-down是通过简化和抽象,将神经元的复杂生物细节逐渐简化为功能模块,直至形成非常简化的黑箱模型。深度学习模型在图像识别、语音识别、自然语言处理等领域取得了巨大成功,其性能甚至超过了人类。这表明,通过适当的抽象和简化,可以实现高度复杂的功能,类似于生物神经系统中的认知任务。这为top-down路径提供了一定的证据支持。但是这种简化模型与大脑神经元差别巨大,目前的研究手段无法从生物学或物理理论角度解释其智能行为的出现,其演化方向也是不可控的。
Bottom-up是通过精细地模拟神经元和它们之间的复杂交互,试图通过大量神经元的相互作用来涌现出智能。这种方法重视每一个生物细节,从基本的神经元行为,到树突、突触、复杂网络连接等,通过不断增加层次的细节来实现高层功能。这一路径认为复杂的拓扑结构及其多样的突触连接可能是智能形成的基础。智能并非通过逐步简化和抽象直接构建,而是通过许多低层次神经元和回路的相互作用而自然涌现出来的。
讲者认为通过精细大脑模型有可能实现基于人脑的通用智能。精细大脑模型与大语言模型的设计逻辑一样,形式上满足规模法则,都是数据驱动。精细神经元模型强大的计算能力和逻辑推理能力使得其拥有更大的潜力。但是想要实现基于精细大脑模型的人脑智能,面临着很多挑战。一方面需要高性能的计算框架对大脑进行模拟,另一方面需要高效的训练方法。
杜凯,北京大学人工智能研究院助理研究员。杜凯博士于2002年在北京航空航天大学飞行器动力工程系获得学士学位,并于2016年在瑞典卡罗琳斯卡医学院神经科学系取得博士学位,随后在该院进行了博士后研究至2020年。在2013至2016年间,他是欧盟脑计划“大脑仿真平台”瑞典团队的主要成员。2020年,加入了北京大学人工智能研究院,并参与创建了北京智源人工智能研究院的生命模拟部门。
研究方向:大脑精细仿真,树突计算,以及基于大脑精细模型的新型人工智能系统和理论。主要贡献包括构建了首个针对基底核脑区的精细神经元模型,并开发了一种基于GPU的高性能计算框架—DeepDendrite。该框架不仅显著提高了大脑模拟的计算速度,还成功地将树突计算原理与人工智能模型进行了紧密的整合。