更多干货内容请关注微信公众号“AI 前线”,(ID:ai-front)
为何大脑能在短时间内取得如此大的进步,这个问题引起了我们对于元学习理论(meta-learning,也就是学会学习)的研究。普遍认为,我们的学习是基于 2 个时间尺度的,从短期来看我们专注于学习具体的实例,但从长期来看我们学习抽象的技能或者要完成一项任务需要的规则。两者结合可以帮助我们高效学习,并将这些知识快速和灵活地应用到新的任务中。在 AI 系统中重建元学习的模型,我们称之为元强化学习(meta-reinforcement learning),已经被证明在推动快速、单次的智能体学习中非常有效(参见我们的论文)。但是,是什么样的机制能让大脑内进行如此复杂的处理在神经系统学科中依旧是个未解之谜。
在我们最新的关于自然神经系统科学的论文中,使用了 AI 领域中的元强化学习框架,用来研究大脑中多巴胺在我们学习过程中起到的作用。多巴胺——通常被认为是大脑愉悦的信号——曾经被认为和 AI 强化学习算法中用到的奖赏预测误差信号有同等的功效。这些系统在奖励的推动下反复试错,我们提出多巴胺的作用不仅仅是用奖励激励我们从过去的行为中学习,它扮演一个不可或缺的角色,尤其在前额皮质区域,让我们能高效、快速和灵活地在新任务中进行学习。
为了证实这个理论,我们虚拟重建了神经系统科学中的 6 个元学习实验,每个实验都需要一个代理去完成任务,任务的底层规则都是一样的,在某些维度上会有所差别。我们训练了一个递归神经网络(扮演多巴胺的角色),然后比较递归网络中的活动动态和在之前神经系统科学实验中的真实数据。结果证明递归网络是很好的元学习代理,因为它们能够内化过去的行为和观察结果,然后在进行多种任务训练的同事吸收这些实验。
我们重建的实验之一被称为哈洛实验(Harlow Experiment),这个实验在 19 世纪 40 年代被用来探索元学习的概念。在最初的实验中,向一组猴子展示他们不熟悉的 2 个物体,挑选出其中的一个会被给予食物奖励。这 2 个物体会向他们展示 6 次,每次的左右顺序都是随机的,猴子们必须学习到底哪个物体会给他们带来奖励。接下来还会有另外 2 个新的物品展示给他们,同样只有一个物品会带来食物奖励。在训练的过程中,猴子们发现了一种可以挑选到奖励相关的物品的策略:它们学着在第一次选择时随机选择,后面根据奖励反馈情况选择哪个特别的物品,而不是根据左右位置进行挑选。这个实验证明了猴子可以内化任务的底层规则,并学习抽象的规则架构,也就是事实上的学会学习。
我们用一个虚拟电脑屏幕和随机挑选的图片模仿了一个非常类似的实验,我们发现我们的元强化学习代理人和哈洛实验中的动物表现出了非常类似的行为,甚至展示之前完全没见过的新图片时也会有类似的行为。