专栏名称: 哎咆科技
原「果粉查询」公众号蜕变为专注科技生活媒体,提供最前沿科技动态及爆料,产品试用测评&众筹,苹果序列号查询,山寨机&翻新机验证等服务。
目录
相关文章推荐
ZOL中关村在线  ·  iPhone 16e上手体验:“刀法”过于精湛 ·  18 小时前  
哎咆科技  ·  夸克上线深度思考 这波是谁慌了 ·  昨天  
ZOL中关村在线  ·  跟着大博主买手机会被坑吗? ·  昨天  
ZOL中关村在线  ·  想要超薄但担心强度?看看这几款手机再说 ·  2 天前  
51好读  ›  专栏  ›  哎咆科技

模仿人类行为的火柴人,真魔性

哎咆科技  · 公众号  · 硬件  · 2017-07-17 22:30

正文

最近,一个魔性的火柴人进入了我们的世界。它用它充满喜感的步伐和魔性的身姿,学习人类的各种运动行为。如果放在以前,我们人类可以嘲笑它为人工智障,但是Alpha Go的出现,打碎了人类的傲慢。和Alpha Go一样,这个酷似火柴人的智能体同样出自Google的DeepMind团队,它的出现是因为该团队在探索如何利用强化学习教“火柴人”适应陌生而且复杂的环境。



大家对强化学习可能有疑问,这是机器学习的一个领域。简单来说就是不告诉算法怎么做,先去尝试一些行为,得到一个结果,判断这个结果的对错好坏来对之前的行为进行反馈,然后根据反馈不断调整行为,重复这个过程直到某个行为能得到最好结果。哎妹知道这个太抽象,哎妹给大家举个简单的例子,比如你要训练一条小狗,让它听到“蹲下”这个口令就会蹲下。你喊了口令,小狗可能会发出叫声,会咬尾巴转圈,或者做出蹲下的动作等等。当它做了蹲下的行为时,你给它一些肉吃(相当于正反馈/奖励),做其他动作的时候你就骂它(相当于负反馈/惩罚),那么长此以往,它就知道你喊“蹲下”的时候,它只要蹲下就会有肉吃,然后就训练出小狗听口令蹲下的能力。这个例子可能不够准确,但是足够形象。



以下的三个智能体就是基于强化学习算法来适应各种复杂和陌生的环境,从而学习到各种复杂流畅的动作。而这里的反馈机制就是只要顺利通过各种环境就可以继续前进,否则终止,“继续前进”就是奖励。智能体会逐渐调整自己的关节来通过各种环境的考验,其间的每一个动作都是它自己学习而来。

这些智能体都是通过虚拟感应器来感知所处的环境和周围的物体的。


第一个:Planar walker(平面行走者)

在复杂环境中,能学习奔跑,跳跃,蹲伏和攀爬。


第二个: Quadruped(四脚蜘蛛型)

精确的步伐放置,通过障碍物,擅长跳跃和爬行动作。


第三个: Humanoid(类人形)

对走路非常感兴趣,能跑过不平的地面,绕过墙壁,跨栏,跳跃通过间隔,还能通过类似于跷跷板的地形,甚至在对它的躯干进行强制扰动的时候,还能很好地保持稳定。


献上完整视频 ↓↓↓







请到「今天看啥」查看全文