专栏名称: 混沌巡洋舰
混沌巡洋舰, 给您洞穿未来的视力。我们以跨界为特色, 用理工科大牛的科学思维帮你梳理世界的脉络。
目录
相关文章推荐
百度智能云  ·  定了!还有500场! ·  3 天前  
白鲸出海  ·  AppLovin“游戏包“找到接手方,Man ... ·  2 天前  
阿里开发者  ·  AI ... ·  3 天前  
51好读  ›  专栏  ›  混沌巡洋舰

大脑如何为世界建模?从无监督学习到预测加工|《预测算法》

混沌巡洋舰  · 公众号  ·  · 2024-07-06 08:06

正文


导语


由“万物解释者”、伦敦大学学院教授 卡尔·弗里斯顿 (Karl Friston) 基于著名的“自由能原理”(Free Eneray Principle)搭建的预测加工框架,旨在为认知神经科学、认知心理学、认知机器人学,或一切无法绕开认识论前提的实证科学分支提供心智现象的通用机制。哲学家与认知科学家安迪・克拉克(Andy Clark) 将这套雄心勃勃的框架与富有说服力的具身认知相关见解结合起来,试图为心智现象描绘一套真正意义上的 “大一统理论”。 《预测算法:具身智能如何应对不确定性》 这部开创性的著作或许将一举终结身体与心灵的亘古之谜。今天的文章节选自本书第一章。

研究领域:预测加工理论,世界模型,联结主义系统,多层架构学习,多层预测编码,概率生成模型
Andy Clark | 作者
刘林澍 | 译者



目录

1. 自下而上,与自上而下的信息加工

2. 采用动物的视角

3. 自举式学习

4. 多层架构的学习

5. 预测加工





1. 自下而上,与自上而下的信息加工




当我和一位同事闲聊片刻后重新进入办公室,觉知到待在桌上的那杯热咖啡时,发生了些什么事?一种可能是:我的大脑接收到一系列视觉信号 (为了简单起见,想象一个被激活的像素阵列) ,这些信号快速地确定外界事物的一些基本特征,如线条、边缘和色块。然后,这些基本特征得到前馈、逐步积累并 (在适当的情况下) 结合在一起,产生层级越来越高的信息类型,最终被编码为形状和关系。这些形状与关系在某一时刻激活了我们的知识储备,感觉由此被转化为知觉,于是我们看见了一只造型复古而不失时髦的绿色马克杯,里面盛满了热气腾腾的美味咖啡。尽管对这个模型的描述极为简练,它还是准确地反映了某种传统的认知科学取向,这种取向将知觉描述为“自下而上” (bottom-up) 的、累积式的特征检测过程。

这里有一个备选方案。在我重新走进房间时,我的大脑已经提前形成了一套包含“咖啡-办公室关联”的复杂预期。当我瞥向桌面,几条经过快速处理的线索引发了一系列视觉加工,传入感知信号 (它们被称为“驱动信号”或“自下而上的信号”) 与一连串自上而下,以及横向传递的预测相遇,后者对应这个小小的世界最大概率的状态。预测的流动反映了嗡嗡作响、持续进行的积极神经处理过程,其下行方向则有助于抢先确定相关视觉加工 (及其他) 路径上不同的神经元集群可能的激活模式。伴随着我们在现实环境中不同类型的活动,下行及横向预测将涉及宽广的范围,而非仅限于形状和颜色等简单的视觉特征——正如我们即将在后续章节中谈到的,它将涵盖大量多模态联想,并将与运动和情感相关的复杂预测糅合进来。多重双向信号快速交互、热情共舞,一旦下行“猜测”发生错误,由此产生的误差信号将横向或向上传播,以提高后续预测的质量。当预测流对传入信号的解释足够合理之时,关于视觉对象的知觉就产生了。这一过程在多重时空尺度上不断展开,系统自行生成传入感知信号,并将其与现实刺激进行匹配,在匹配成功时,我们就经验到了结构化的视觉场景。

这就是我们觉知那杯咖啡的方式,其基本假设正应了那句老话:知觉是受控的幻觉。这是个相当夺人眼球的说法,尽管它也有些曲解了事实真相 (见第6章) 。形象地说,我们的大脑致力于猜测“外头什么情况?”——而知觉就产生在这种猜测与实际传入的信号彼此相符之时。




2. 采用动物的视角




不管是预测,还是 (我们将要谈到的) 行动都需要基于某些知识,这些知识一开始又是从哪儿来的?要获得这些知识并据此进行预测,我们是否需要首先对环境进行直观的经验 (看来确实如此) ?毕竟获取知觉经验不需要预测加工过程的参与,不是么?

要解决这个问题,我们就要将能量模式经由感觉通道的传递,和系统产生知觉经验的过程清楚地区分开来。唯有基于能量模式的传递与自上而下的合理预期,我们才能获得对真实世界的生动知觉。这样一来,问题就变成了:我们能否基于单纯的能量传递生成并运用合理的预期?故事的动人之处在于,学习和在线反应或许基于同一类过程(试图预测当前的感知输入)。

一些学者 (Rieke et al., 1997;Eliasmith, 2005) 主张,将动物自身的视角与某个系统作为外部观察者的视角进行对比会是一个良好的开端。外部观察者可能会发现,唯有当视网膜上出现某些刺激模式,且这些刺激模式往往意味着在舌头所及范围内有一只可口的猎物 (比如说,一只苍蝇) 时,青蛙大脑中的一些神经元才会被激发。我们可以说,这种神经活动模式对猎物的存在进行了“表征”,但尽管这种描述往往是有用的,它却在一个更为重要的问题上蒙蔽了我们——青蛙 (或任何一个我们关注的系统) 到底通过何种途径获得对世界的理解?更好地看待这个问题需要我们采用 (这个“采用”是什么意思,我们很快就会讲到) 青蛙本身的,而非外部观察者的视角,即只考虑青蛙所能获得的证据。这种说法其实也有误导性——它似乎是在鼓励我们透过青蛙的双眼看世界,但实际上,它是在说我们只应该去考虑那些会被青蛙的感受器所接收到的刺激。其中某些刺激在我们看来就是苍蝇,但对青蛙的大脑来说,它只是对感觉系统的某种扰动,该扰动是由于诸感受器接收到某些外部能量所导致的。正如Eliasmith (2005, p. 102) 所指出的那样,“可能的刺激处于未知状态,动物必须根据不同的感知线索推断出呈现的是什么”。我要补充一点 (后面将详细讨论) :“推断出呈现的是什么”与选择合适的行动间存在深刻的关联。因此,决定动物的视角的,是它们的大脑能够通过感受器状态的变化获取什么信息。而加工这些信息的全部意义就在于,它能够基于外界环境 (表现为感受器接收到的能量) 和动物自身的状态 (比如说它有多饿) ,让动物通过选择合适的行动做出反应。

我们还要强调一点:“信息”这一概念在此仅指“能量的传递” (Eliasmith, 2005; Fair, 1979) 。也就是说,任何与信息有关的论述,都必须最终还原为感受器如何接收刺激。这是因为我们想知道一个明智的认知系统最开始是如何自然形成的,如果要避免引入无益的外部观察者视角,如何看待“信息”就非常重要。因此,谈论信息和谈论信息所指涉的东西是两码事。这一点非常关键,因为如果大脑要对环境做出合适的行为反应,它就必须解决信息的指涉问题。将能量刺激转化为指导行动的信息正是具身的、情境化的大脑的使命。

Eliasmith指出,Fitzhugh (1958) 的研究提供了一个“采用动物视角”的早期案例,该研究尝试仅从动物神经纤维的反应推断相应的环境诱因。Fitzhugh在研究中刻意避免使用自己关于反应诱因的知识 (观察者视角) ,具体做法如下:

正如大脑(或其不同部分)从感知信号推断现实世界的状态一样,Fitzhugh想要用神经纤维的反应确定未知的刺激。他刻意保证自己只使用动物能够获取的信息,而任何源自“观察者视角”的信息只能用于检查答案,而非确定动物的表征。(Eliasmith, 2005, p. 100)


Fitzhugh的任务很是艰巨,但这正是动物大脑的日常工作。大脑必须在无法直接接触其源头的前提下发现刺激信号的可能诱因。它所“知道”的——在“知道”这个词的字面意义上——只有其自身状态 (如神经脉冲序列) 流动与变化的方式。一个外部观察者会注意到,大脑的自身状态会对具身的有机体产生影响,如导致感受器本身的运动。积极的认知主体由此对感知刺激流进行组织,影响能量刺激的波动起伏。我们稍后将会看到,这是一个重要的额外信息来源,但并不会改变感知的基本原理:任何系统都能直接访问其自身的感知状态,即各感受器之间刺激分布的模式。

这种刺激分布的模式如何让具身的、情境化的大脑成为一个具有重大价值的节点 (同时也是一个消耗大量新陈代谢能量的器官) ,以辅助有机体灵活的适应性反应?请注意,这个问题已经与本章开始时不同了:我们不再关心有机体如何在外界环境与自身内部状态间建立起“映射” (mapping) ,而是要借助多变的传入信号本身推断出信号源 (世界) 的性质。




3. 自举式学习




这看似无望,但预测驱动的学习提供了一个非常强大的方法,让事情有望柳暗花明。要理解这种方法,我们需要首先回顾一下另一种学习策略:人们会为参与学习的系统安排一个“老师”,但这个“老师”通常不是人类,而是一个自动化信号,其任务是根据当前输入准确地告诉系统应该做些什么,或不该再做些什么。这被称为“监督式学习”。 一些最为著名的监督式学习系统依赖所谓的“误差反向传播” (如Rumelhart, Hinton, & Williams, 1986a,b; Clark, 1989, 1993) 。这类“联结主义”学习系统会将当前的输出 (典型的输出是对输入刺激的某种范畴化) 与正确的输出 (体现为一些贴有标签的,或预先分类的“练习数据”) 进行对比,调整反映系统实际经验 (即know-how) 的连接权重,以提升其未来表现。这种缓慢的自动调整过程 (人们称之为梯度下降学习) 适用于这样的系统:其内部的连接权重最初是被随机设置的,而借助训练 (如果一切顺利) ,它们的学习有望逐渐加速。

这类联结主义系统是一个漫长演化过程的关键一步,这个过程最终导向我们很快就要描绘的“ 预测加工模型 (PP模型) 。实际上,有学者主张预测加工模型 (更宽泛地说,多层贝叶斯模型) 就是从联结主义系统的庞大家族谱系中演化而来的 (具体讨论见McClelland, 2013及Zorzi et al., 2013) 。在这以前,我们很容易否认仅凭对感知证据的精细挑拣就能够支持有效的基础学习。相反,人类的大部分知识看起来更像是天生的——在漫长的演化过程中,它们作为神经回路的形态与功能被逐渐固定下来。

联结主义系统的出现让人们对以上观点产生了怀疑,这很重要,因为它表明我们实际上有可能从实际接触的丰富感知信号中学到许多 (见Clark, 1993) 。但标准的联结主义方法 (反向传播的训练) 在两个方面碰了钉子:一是它需要提供足够数量的、已预先分类的训练数据,以支持监督式学习;二是训练难以在多层网络架构中展开,因为对误差信号的反应需要在各层级间进行分配,而分配方式往往难以确定下来。适用于多层架构的预测驱动学习恰好同时解决了这两个难题。

我们先考察训练数据。预测驱动的学习可以被视为监督式学习的一种干净的 (即生态上可行的) 实现形式,更准确地说,它就是一种自我监督式学习。在此过程中,环境本身能够以滚动的形式持续提供“正确的”反应。因此,假如你就是一个大脑 (或多层神经网络) ,日常工作就是不断地转化环境刺激,你就一定能够侦测自己的感觉登记器是怎样持续变化的。如此,你就能尝试预测这些感觉登记器的下一个状态 (虽然很多动物也能做到这一点)

故事其实比它看上去的样子要复杂得多。虽然将预测加工过程理解为在时间上彼此离散的一系列步骤或许是最简单的,但我们将要考察的模型主张大脑在一个连续不断的过程中对滚动的现实进行预测。知觉是一个预测驱动的建构过程,它永远植根于过往 (系统性知识) ,在多个时空尺度上对未来提前做出考量。一旦我们认识到这一点,在预测当下和预测临近未来之间的界限就不再分明了。

对预测加工过程来说,一个好消息是,该过程所需要的大量训练数据就来源于环境本身。因为只要周围的环境发生改变,感觉登记器的状态就将受传入信号的系统性驱动而发生变化,进而为大脑的自我监督式学习提供训练数据。因此:

预测性学习尤为引人瞩目,因为它的信号源几乎无处不在。如果你想预见接下来发生的一切,那么每一个当下都是学习的机会。这种无时不在进行中的学习可以解释(比如说)婴儿是怎样神奇地获得了对世界的复杂理解的,尽管它们的行为貌似十分迟钝(Elman, Bates, Johnson, Karmiloff-Smith, Parisi, & Plunkett, 1996)——婴儿对自己将会看到什么的预见会越来越准确,它们由此为环境建构起日益复杂的内部模型。(O’Reilly et al. 已提交p. 3)


以此观之, 预测加工过程是一种典型的“无上限自举” 。举个例子,要想预测句子中的下一个单词,熟练掌握英语语法是很有好处的。而熟练掌握英语语法的一条有效途径,就是寻找最好的办法预判句子中的下一个单词。这正是世界本身自然地提供给我们的训练方式,因为对应句子中下一个单词的声音或形状会紧随着预测呈现出来。由此,你可以一步步地引导自己建构起关于英语语法的知识,这些知识又会在后续的预测任务中派上用场。如果处理得当,这种自举 (即某种形式的“经验贝叶斯方法”,见Robbins, 1956) 能够成为一种非常强大的训练机制。

预测驱动学习将变动不居的感知信号视为丰富的、持续可得的、“自举友好”的免费资源加以利用。世界慷慨而可靠地为我们提供着海量的训练信号,以资匹配当下做出的预测和实际感知的传入刺激,无论预测任务在生态意义上是相对基础的 (如预测不断变化的视觉影像以识别捕食者或猎物) 还是相对先进的 (如“看见”桌上的咖啡,或预见句子中的下一个单词) 。一些广为人知的学习算法 (learning algorithms) 能够利用这种机制,揭示实际上塑造了传入信号的、彼此交互的外部原因 (即“潜在变量”) 。但在实践中,这需要引入预测加工模型的另一个关键成分,即使用多层架构进行学习。




4. 多层架构的学习




多层架构的预测驱动学习可能是以我们的方式理解世界的关键所在—— 在我们眼中,世界是高度结构化的,它表现为对应不同时空尺度的一系列规律和模式,同时充斥着各类彼此交互的、复杂嵌套的远因。感知预测机制与多层架构学习的结合对我们而言意味着计算上的突破 。对这种突破的认识最初可见于Helmholz (1860) ,他将知觉描述为概率性的、知识驱动的推理过程。Helmholz提出了一个重要的主张,即系统要从身体的感知效应推断其现实诱因,这是一项棘手的工作。也就是说,感知主体要对外部诱因押注,它们会询问:“什么样的外部刺激才能以当下的方式激活感受器?”这项任务之所以棘手,部分是由于有时感受器的某种激活模式对应着好几套可能的外部诱因,而这些外因的彼此差异仅限于其 (情境相关的) 发生概率。

受Helmholz的洞见启迪,MacKay (1956) 、Neisser (1967) 和Gregory (1980) 的工作对当代认识心理学产生了重要影响,并形成了一个传统,我们今天称之为“综合分析” (analysis-by-synthesis,见Yuille&Kersten, 2006) 。在机器学习领域,这些洞见引领了一连串重要的创新,它们源于与 (名副其实的) “Helmholz机器” (Dayan et al., 1995; Dayan & Hinton, 1996; Hinton&Zemel, 1994) 相关的研究工作。 “Helmholz机器” 是一个多层架构的早期范例,研究者可以在不对相关数据进行预先分类的前提下训练它。系统能够利用其下行或横向内部连接自行生成训练数据,以此实现“自组织”。也就是说,它一开始不是在对数据进行分类 (或“习得识别模型”) ,而是在学习如何使用多层架构自行生成传入刺激。

这看似一项不可能完成的任务,因为系统需要一些知识才能自行生成传入刺激,而它当下正在努力尝试去获取这些知识。比如说,如果对诸音节彼此连接和组合的方式不具备相当程度的了解,系统就不可能凭空生成一门语言的语音结构。同理,只有掌握了一个与语音结构相关的生成模型,一个系统才能去学习如何进行归类任务 (也就是说,输入一连串声音信号,它能够输出其语音分析结果) 。但如果既没有这样的模型,也没有支持模型建构的知识,我们又该从何处着手呢?这种情况下,答案似乎是“逐步地,从两处同时着手”——至少在理论上,通过发展新的学习路径以迭代地实施“无上限自举”,这一难题就能够得到解决。

人们为此设计了一系列算法,其中以“ 睡眠-觉醒法 (wake-sleep algorithm,见Hinton et al., 1995) 最为典型,该算法让识别 (recognition) 与生成 (generation) 任务彼此引导,允许系统在迭代评估 (iterative estimation) 中轮替地训练两组权重,以习得识别与生成模型。“睡眠-觉醒法”会使用其下行连接指定隐藏单元的理想 (目标) 状态,由此对识别模型的建构进行事实上的自我监督,这是借助生成模型实现的,该生成模型致力于自行激活或——如有些资料所描述的——“凭空生成”特定感觉模式。更重要的是,即便系统一开始只含有随机分布的一系列低值权重,以上过程仍然可以有效地进行下去 (见Hinton, 2007a)

在这个相当具体的意义上,一个生成模型会通过推想一个诱因矩阵,努力捕捉某些传入信号的统计结构——只要在上述矩阵与信号结构间存在对应关系。一个对应视知觉的概率生成模型会通过推想一个远因的交互网络,努力捕捉较低层级上的对应刺激模式 (最终是网膜刺激) 。因此,特定情境中网膜刺激的特定模式能够通过使用生成模型得到最理想的解释。简而言之,生成模型能够将高层表征 (如彼此交互的主体、客体、动机和运动) 与多个中间层级 (对应颜色、形状、质地和边缘组合及变化) 结合在一起。当这些隐藏诱因的组合 (在多个时空尺度上) 形成一个连贯的整体,系统就使用其知识储备自行生成了感知数据,借此知觉到一个有意义的、结构化的场景。

我们必须再次强调,要获得对这种结构化场景的理解,动物只能使用取其自身视角时能够获得的信息。这种理解植根于动物的演化过程对其大脑和身体的预结构化 (pre-structuring) ——不论它呈现出何种面貌——以及由感受器所登记的能量刺激。利用多层架构持续自行生成感知数据的尝试为动物提供了一种实现以上理解的系统化方法。在实践中,这意味着一个多层系统中的下行和横向连接能够对应多重时空尺度,为彼此交互的诱因编码概率模型。如果以上逻辑是正确的,那么我们识别客体、状态和事件,其实就是寻找那些最有可能的因素 (即远因) :它们的彼此交互能够生成 (亦即预测,并最好地解释) 传入的感知刺激 (见Dayan, 1997; Dayan et al., 1995; Hinton et al., 1995; Hinton & Ghahramani, 1997; Hinton & Zemel, 1994;  Kawato et al., 1993; Mumford, 1994; Olshausen & Field, 1996)









请到「今天看啥」查看全文