专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
宝玉xp  ·  预测完一个Token再预测下一个//@黄健楸 ... ·  20 小时前  
DataFunTalk  ·  大模型训练的分布式策略和性能优化 ·  昨天  
DataFunTalk  ·  大模型训练的分布式策略和性能优化 ·  昨天  
宝玉xp  ·  很好的实践经验-20241106001302 ·  2 天前  
51好读  ›  专栏  ›  新智元

UC 伯克利为 AI 植入好奇心,探索能力超过 AlphaGo 蒙特卡洛树搜索

新智元  · 公众号  · AI  · 2017-05-30 13:12

正文

  新智元编译  

来源:indiatimes.com

作者:GWYN D'MELLO

编译:张易


【新智元导读】加州大学 UC 伯克利分校的一队研究者在他们的 AI 系统中嵌入了一种能力,能让系统在即使没有短期结果驱动的情况下,也会采取行动。这与 AlphaGo 采用的蒙特卡洛树搜索的方法不同,有可能避免 AI 只追求一系列短期结果,而产生长期的、整体上的不良结果。研究给出了视频,展示了他们的研究成果。

粽情 AI,新智元祝读者端午安康!


很少有人在玩儿游戏的时候——比如说超级玛丽吧——会一口气跑到关底。你总会这里看看,那里顶顶,找找隐藏的钱或蘑菇。现在,研究人员已经开始尝试把这种好奇心植入 AI 系统。


加州大学 UC 伯克利分校的一队研究者在他们的 AI 系统中嵌入了一种能力,能让系统在即使没有短期结果驱动的情况下,也会采取行动。比如说,谷歌的 AlphaGo 采用了蒙特卡洛树搜索的方法。这意味着它是从经验中学习的,这种经验是指,如果 AlphaGo 采取了某一特定行动,那么对手最可能的下一步是什么。根据可能产生的结果,每个可能的移动都被从最优到最差打了分。这样,AI 每轮会选择最好的一步。你用正向激励训练狗时也是用的类似方法。问题是,这也会让 AI 的思维变得非常狭窄。

 

永远选择最好的可能结果,AI 会追求一系列有短期收益的行动,即使从长期来看整体上会有不好的结果也在所不惜。相反,UC 伯克利的 AI 似乎采取了随机行动,努力在探索其他的可能性。这解释起来有点难,研究人员把它描述为“通过自监督逆动力学模型在可见特征空间里预测自我行动产生结果的能力中的错误”(the error in an agent‘s ability to predict the consequence of its own actions in a visual feature space learned by a self-supervised inverse dynamics model)。

 


为了训练 AI,研究团队教它玩超级玛丽和 VizDoom(一个基于游戏毁灭战士的AI 训练和研究平台)。一个标准的 AI 每次的玩法会一模一样,因为它在每一步都会追求价值的最大化。然而,UC 伯克利的 AI 玩儿得更像人,在游戏中总是尝试探索更广阔的可能性。

 

这一研究指出:“在许多真实世界的场景中,能够给智能体的外在奖励真的是太稀疏了,或者整体上是缺失的。这种情况下,好奇心就扮演着内在奖励的角色,能够使智能体去探索环境,学习未来可能会用到的技能。”

 

这听上去似乎不是特别有用,但它实际上暗示了巨大的可能性。未来,这种训练方法可能帮助 AI 系统更自然的学习,从探索中获得技巧,以备不时之需。


原文地址:http://www.indiatimes.com/technology/news/uc-berkeley-researchers-have-built-human-like-curiosity-into-an-artificial-intelligence-system-322386.html