专栏名称: 人工智能学家

致力成为权威的人工智能科技媒体和前沿科技研究机构

首个像人类一样思考的网络！Nature子刊：AI模拟人类感知决策

人工智能学家 · 公众号 · AI · 2024-08-15 15:23

主要观点总结

本文介绍了来自佐治亚理工学院的研究人员开发的神经网络RTNet，该网络能够模拟人类的感知行为，包括随机决策和响应时间分布等特性。文章详细描述了RTNet的网络结构、工作原理以及与人类决策行为的对比实验。结果显示，RTNet能够复刻人类的基本决策特征，并在准确度、响应时间和信心方面表现得更好。此外，文章还介绍了其他几个神经网络模型，并讨论了RTNet与认知模型和生物学特性的关系。

关键观点总结

关键观点1: RTNet的特点与优势

RTNet采用Alexnet架构，使用BNN引入随机性，模拟人类的感知行为。其核心假设为响应时间RT是由顺序采样和结果积累的过程生成的。RTNet能够模拟人类的决策随机性、不同难度任务完成时间的差异等特性。

关键观点2: RTNet与其他神经网络模型的对比

本文介绍了CNet、BLNet和MSDNet等神经网络模型，并与RTNet进行了对比。实验结果表明，RTNet在模拟人类行为特征方面表现得更好。

关键观点3: 人类决策行为的模拟意义

模仿人类感知决策对于人工智能的发展具有重要意义，这有助于提高AI的智能化水平，使其更具灵活性和适应性。

关键观点4: RTNet与认知模型的关系

RTNet与传统认知模型相比具有生物学可行性，能够应用于实际图像，并捕捉不同选择之间的关系。

正文

来源：脑机接口社区

从能力上来讲，当前AI的专业性已经在多方面超越人类。

不过咱们也依然保有一些「神圣」的特性。

比如人脑的效率很高，一碗米饭就能提供半天的算力，一个鸡腿就能输出好多好多token。

比如我们的灵魂与情感，在理性认知的同时也会产生超越常理的行为。

至于最终的超级智能到底需不需要学习人类的这些神秘特性，也许试过才知道。

——小AI你想进步吗？先来模仿我吧。

近日，来自佐治亚理工学院的研究人员，开发了首个与人类思考方式相近的神经网络——RTNet。

传统神经网络的决策行为与人类有着显著不同。

以图像分类的CNN为例，不管输入图像看上去是简单还是复杂，网络的计算量都是固定的，且相同的输入必然得到相同的输出。

人类则一般倾向于简单题做得快，但偶尔也会粗心大意犯点低级错误。

全新的RTNet能够模拟人类的感知行为，可以生成随机决策和类似人类的响应时间（RT）分布。

RTNet的内部机制更接近人类产生RT的真实机制，其核心假设为：RT是由顺序采样和结果积累的过程生成的。

下图是RTNet的网络结构，分为两阶段：

一阶段采用Alexnet架构，但权重参数为BNN的形式，与一般神经网络权重为确定值不同，BNN在训练时学习的是分布。

BNN在每次推理时，从学到的分布中随机采样出本次使用的权重，从而引入了随机性。

二阶段是一个累加的过程，以分类任务为例，事先设置一个阈值，每次推理的结果累加到各自的分类上，直到某一类到达了阈值，则推理停止。

由此可知，RTNet在原理上至少模拟了人类决策的两种特性：首先是BNN引入的随机性，其次是对于不同难度任务有不同的完成时间（RT），因为更简单的图像可以用更少的推理次数累积到阈值。

作者还通过全面的测试，表明RTNet复刻了人类准确度、RT和置信度的所有基本特征，并且比所有当前替代方案都做得更好。

模仿人类感知决策

人类感知决策有六个基本特征：

1）人类的决策是随机的，这意味着相同的刺激可以在不同的试验中引发不同的反应2）增加速度压力会缩短RT但降低准确性（SAT）3）更困难的决策会导致准确性降低和RT延长4）RT分布右偏，并且这种偏斜会随着任务难度的增加而增加5）正确试验的RT低于错误试验6）正确试验的信心高于错误试验

目前，对于现有的图像可计算模型，能够在多大程度上再现人类的全部行为特征，我们所做的工作还相对较少。

本文中，作者选择了在这方面表现最先进的几个神经网络：CNet、BLNet和MSDNet，作为RTNet的对比对象。

实验设计

人类对照组

选取60名参与者执行数字辨别任务，分别报告感知到的数字，以及评估自己的决策信心。

每次试验开始时，参与者注视一个小的白色十字架500-1,000毫秒，随后展示需要辨别的图像300毫秒。

数字图像来源于MNIST数据集，使用1到8之间的数字，并叠加不同程度的噪声。

参与者使用计算机键盘报告感知到的数字，将左手的四个手指放在数字1-4上，右手的四个手指放在5-8上。这样参与者可以在不看键盘的情况下做出反应，从而减少额外的干扰。

实验包括对SAT和不同任务难度的测试。

SAT测试要求参与者注重其反应速度或准确性，并在实验中交替进行速度和准确性的测试。

通过向图像中添加不同程度的均匀噪声来改变任务难度。简单任务包含0.25的平均均匀噪声（范围为0-0.5），而困难任务包含0.4的均匀噪声（范围为0-0.8）。（ps：相对的图像像素值为0到1之间）

另外，为了适应测试，人类组也参与了训练阶段，分为无噪声、关注准确性和关注速度三部分，每个部分进行50次训练。

测试阶段由960次实验组成，分为四轮，整合了SAT条件以及不同的难度等级。

RTNet

RTNet采用Alexnet架构有两个原因：一是为了匹配实验中的其他网络，太小了吃亏。

另一方面RTNet的BNN很难训练，又限制了模型不能太大。综合考虑就Alexnet比较合适。

在BNN中，权重被建模为概率分布，而不是点估计。按照贝叶斯推理规则，可以使用以下公式推断权重w的后验分布：

但是，对于大型网络来说，这种计算是难以完成的，因此，计算这个后验分布通常使用变分推断来近似。

指定一个替代分布q (w) 来近似后验，并调整其参数以最大化两个分布之间的相似性，分布之间的相似性通过KL散度来量化：

但由于p (x) 难以计算，这时可以通过定义一个证据下限 (ELBO) 函数代理目标函数来绕过此计算：

研究人员对RTNet的BNN模块进行了总共15个epoch的训练，批次大小为500，在MNIST测试集上实现了高于97%的分类准确率。

作者使用60种均值方差的组合作为初始化，训练了60个RTNet实例，来对标60个人类受试者，同样，下面介绍的其他网络也用类似的方法（随机种子）分别生成60个实例。

CNet

CNet 建立在残差网络 (ResNet) 的架构之上，利用跳过连接在输入处理期间引入传播延迟。

在每个处理步骤中，所有层中的所有单元都会并行更新。但是，由于每个残差块引入的传播延迟，更简单的感知特征会在块之间更快地传输。

通常，残差块t需要t−1个时间步才能接收完整且稳定的输入。在处理过程中的任何时间点，网络都可以生成预测。

但是，如果时间步长t小于残差块的数量，则响应将基于较高块中的不稳定表示。

BLNet

BLNet是一个RCNN，由标准前馈CNN和循环连接组成，这些循环连接将每一层都连接到自身，最后的读出层通过softmax函数计算每个时间步的网络输出。

在每个时间步长，给定层从两个来源接收输入：来自前一个卷积层的前馈输入和来自自身的循环输入。

如果当前的计算结果超过预定义的阈值，网络就会生成响应。

MSDNet

MSDNet 的架构类似于标准前馈神经网络，但其每一层后都有提前退出分类器。

在每个输出层，使用softmax函数计算每个选择的结果，如果任何一个方案的结果超过预定义值，网络将停止处理并立即产生响应。

实验结果

下图a – e ，分别表示人类、RTNet、CNet、BLNet和MSDNet所做决策的随机性。暖色表示两次呈现图像时给出的反应相同，而冷色表示两次呈现图像时给出的反应不同。

人类和RTNet表现出随机决策，随机性随着任务难度和速度压力的增加而增加。但是，CNet、BLNet和MSDNet的决策是完全确定性的。

下图展现了人类参与者和模型表现出的行为效果：