为什么说持续学习才是AI的关键

CSDN · 公众号 · 科技媒体 · 2017-08-29 08:53

正文

点击上方“CSDN”，选择“置顶公众号”

关键时刻，第一时间送达！

作者丨Ben Lorica

翻译丨无阻我飞扬

摘要：本文介绍了什么是持续学习，详细阐述了持续学习是人工智能发展的关键，以下是译文

随着越来越多的公司开始在不同的环境中进行试验和部署机器学习，展望一下未来的系统是极好的。今天，典型的序列是收集数据，学习一些底层的结构，通过部署一种算法，系统地捕捉到你学过的东西。收集，准备，和丰富正确的数据 — 特别是训练数据 —这是必不可少的，应该说收集反馈数据仍然是想要使用机器学习公司的一大瓶颈。

未来的人工智能系统将依赖于持续学习，而不是离线训练的算法。人类以这种方式学习，人工智能系统也将越来越有能力这样做。想象一下第一次前往一间办公室并且被障碍物绊倒。下一次你再去到那个地方 — 也许只是几分钟以后 — 你很可能就会知道要当心绊倒你的物体。

有许多应用和场景具有相似探索性质的学习。设想一个Agent与环境相互作用的同时，为了完成一些指定的任务，努力学习采取什么样的行动，以及要避免哪些行为。我们已经看到了强化学习（RL）近期的一些应用。在RL中，目标是学习如何将观察和量度映射到一组动作上，同时试图最大化一些长期回馈。（RL这个术语经常用来描述一类问题和一组算法）虽然深度学习获得了更多的媒体关注，但在大家熟知的AI圈子里，有许多有趣的关于RL的新事态发展。研究人员最近将RL应用于游戏，机器人，无人驾驶，对话系统，文本摘要，教育和培训，以及能源利用。

图1.强化学习包括学习将观察和量度映射到行动上。来源：Ben Lorica

正如深度学习正在慢慢成为数据科学家工具集的一部分一样，类似的情况也正在持续学习上发生。但是为了让数据科学家参与进来，工具和算法都需要变得更容易被接受。这将需要一套新的工具和算法—不同于过去监督学习的工具和算法。持续学习需要一组工具，这些工具可以运行和分析大量涉及复杂计算图形的仿真模拟，理想情况下，应该有一个很低的延迟响应时间。

图2.持续学习的典型工具集（或者“堆栈”）。来源：Ben Lorica.

加州大学伯克利分校RISE实验室的一个团队最近发布了一个开源的分布式计算框（Ray）,它补充了强化学习所需的其他部分。在像自动驾驶汽车这种复杂的应用中，涉及多种传感器和测量，因此，能够快速并行地探索和模拟运行将具有极大的优势。Ray允许用户运行带有一个Python API的并行模拟，这对于数据科学家来说更易用（Ray本身主要是由C++语言写的）。我在RL文章中写关于Ray的内容，是因为它通常是针对Python用户的容错，分布式计算框架。Ray的创建者使其他人很容易使用Python在Ray上编写和运行自己的算法，包括常规的机器学习模型。

为什么需要一个机器学习库，什么样的算法对持续学习重要？回想一下，在RL中，需要学习如何将观察和量度映射到一组动作上，同时试图最大化一些长期回馈。最近RL的成功案例主要使用基于梯度的深度学习，但是研究人员发现了其它的优化策略，比如推演可能会有所帮助。与监督学习不同，你是从训练数据和客观目标开始，在RL中仅有稀疏的反馈，因此像神经进化的技能，随着经典的梯度学习下降而变得更有竞争力。还有其它相关的算法，可能成为用于持续学习模型标准集合的一部分（例如，最近应用于扑克牌游戏中最低限度减少悔牌的可能性）。Ray的创建者正在收集一个库，这个库实现一组共同的RL算法，它通过一个简单Python API的函数变的更容易使用。

大多数公司仍在学习如何使用和部署标准（离线）的机器学习，所以讨论持续学习可能是不成熟的。开始这场讨论的一个重要原因是，这些技术对于将AI带入到你的组织是必不可少的。与其他任何新的技术和方法一样，其出发点是确定用例，在这种情况下，持续学习可能比现有的离线方法更具有优势。我提供了一些例子，这些例子已经部署了RL或者研究取得了可喜的成果，但是这些例子可能与你的组织运作相去甚远。一组已经使用强盗算法（推荐内容或评估产品）的公司可能很快会确认用例，并且成为早期的用户。用于开发AI教学Agent的技术可能拓展到许多涉及扩张人力的应用领域（包括软件工程）。

许多公司意识到，在大多数情况下，机器学习模型在部署到生产后不久就开始退化。好消息是许多AI初创公司正在他们的产品中构建持续学习。公司可能在不久的将来开始使用RL。

相关资源：

Ray :一个新兴的分布式执行框架AI应用(2017 Strata Data keynote by Michael Jordan)*
机器人强化学习（(2016 Artificial Intelligence Conference presentation by Pieter Abbeel）*
人车结合（2017 Artificial Intelligence Conference keynote by Anca Dragan）
强化学习介绍和OpenAI Gym
神经进化：一种不同的深度学习
强化学习的解释*

请点击「阅读原文」获取资源地址。