专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
宝玉xp  ·  Cloudflare Workers AI ... ·  16 小时前  
机器之心  ·  刚刚,OpenAI开启语音智能体时代,API ... ·  19 小时前  
雨生云计算  ·  黄仁勋深度解读DeepSeek ... ·  20 小时前  
雨生云计算  ·  黄仁勋深度解读DeepSeek ... ·  20 小时前  
爱可可-爱生活  ·  Tapered Off-Policy ... ·  昨天  
机器之心  ·  原作者带队再次改造xLSTM,7B模型速度最 ... ·  2 天前  
51好读  ›  专栏  ›  机器之心

学界 | 让好奇心驱动人工智能:UC Berkeley提出自监督预测算法

机器之心  · 公众号  · AI  · 2017-05-17 15:53

正文

选自arXiv

作者:Deepak Pathak等

机器之心编译

参与:李泽南


无监督学习一直被认为是让人工智能在真实世界中有效工作的研究方向,此前大多数研究都会在训练时为人工智能加入奖励机制以明确目标。UC Berkeley 最近发表的论文提出了一种更为先进的方式,研究人员称这种「好奇心驱动」的人工智能算法不需要奖励机制就能学会如何进行《超级马里奥兄弟》和《Doom》两种游戏,并能达到超越以前方法的表现。该论文已被将于 8 月 6 日召开的 ICML 2017 大会接收。


  • 论文链接:https://arxiv.org/abs/1705.05363

  • 展示页:https://pathak22.github.io/noreward-rl/

  • 代码 GitHub:https://github.com/pathak22/noreward-rl


论文: Curiosity-driven Exploration by Self-supervised Prediction



在很多现实世界场景中,对于外部人工智能代理(agent)完成任务的奖励是稀疏的,有时甚至完全不存在。在这种情况下,好奇心可以成为人工智能算法内在的回报信号,让代理可以探索环境并学习可能「终身受用」的技能。在本研究中,我们将好奇心构型,作为人工智能代理在动态环境中自我监督学习时预测自身行动结果造成的错误。我们的方法适用于图像这样的高维连续状态空间,跳过直接预测图像困难的问题,也大量忽略了不能影响代理的环境情况。我们提出的方法在两种环境中进行了评估:VizDoom(一种基于视频游戏《Doom》的人工智能研究平台)和《超级马里奥兄弟》。评估主要研究三个方面:1. 稀疏的外部奖励,这样好奇心将在达到目标的过程中占据重要位置;2. 没有外部奖励的探索,在这种情况下好奇心会推动代理进行更有效的探索;3. 全新的环境(如一个游戏的新关卡),在这种情况下此前获得的经验可以帮助人工智能快速上手。




图 1.UC Berkeley 的研究人员提出了内部好奇心构型


好奇心可以帮助人工智能代理在缺乏奖励的情况下探索环境。研究人员提出的内在模型(ICM)是与代理策略共同学习的,甚至不需要任何环境中的奖励。上图为模型结构解读。







请到「今天看啥」查看全文