专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

【无监督学习】我们如何教人类婴儿学习，也如何教AI

新智元 · 公众号 · AI · 2017-07-26 12:59

正文

请到「今天看啥」查看全文

1 新智元编译

来源：techcrunch

作者：Ophir Tanz 编译：刘小芹

【新智元导读】 这篇文章讨论了在深度学习中为什么高质量、有标签的数据如此重要，从哪里得到这些数据，以及如何有效使用它们。作者最后提出，解决训练数据缺乏的方法可以是不去依赖它们，深度学习的未来可以朝着无监督学习的方向努力。

深度学习的一个主要组成部分是数据——用于训练神经网络的图像、视频、电子邮件、驾驶模式、话语、对象等等。

令人惊讶的是，尽管我们的世界几乎被数据淹没——目前每天产生约2.5万亿字节的数据，但大部分是没有标记或非结构化的，这意味着对当前大部分监督学习形式来说，这些数据是不可用的。深度学习尤其依赖良好、结构化、且有标记的数据。

本文中，我们将讨论为什么高质量、有标记的数据如此重要，从哪里得到这些数据，如何使用它们，以及在短期内机器学习可以期待什么样的解决方案。

监督学习，无监督学习 & 数据

数据被馈送给神经网络，这些网络能够快速对数据进行分析，甚至提纯。这个过程被称为监督学习，因为提供给机器的大量数据是已经提前精心标记过的。例如，为了训练一个能够识别苹果或橘子的图像的神经网络，需要喂给它已经分别标记为苹果或橘子的图像。通过找到所有被标记为苹果或橘子的图像的共同特征，机器能够理解数据，从而使用从这些数据中发现的模式去识别新的图像。它们得到的有标签图像越多，数据集越大、越多样化，它们的预测准确性就越高。也就是说，熟能生巧。

这种方法在教机器有关视觉的任务方面十分有效，例如如何从图像、视频、图形、手写字体等数据中识别出任何东西。现在机器在一些任务中达到甚至超越人类水平已经非常常见，尤其是在图像识别应用中。例如，Facebook的人脸识别系统准确率已经达到97%，而谷歌今年初发布一个用于在医学图像中发现恶性肿瘤的神经网络，其准确率比病理学家更高。

与监督学习相对的是无监督学习。无监督学习的想法是，让机器潜入数据的海洋中，自己去发现和体验，寻找模式和关联，并得出结论，这个过程不需要人的指导。

这种技术长期以来不被一部分人工智能科学家看好，但是，在2012年，谷歌展示了一个能从大量未标记图像中识别出猫，脸，以及其他物体的深度神经网络。这一技术非常令人印象深刻，并产生了一些非常有趣或者有用的结果，但到目前为止，在许多任务中无监督学习的准确率和有效性仍不及监督学习。

数据，数据，无处不在的数据

将机器与人类婴儿进行比较是有用的。我们知道，人类婴儿即使没有得到指导，他也会学习，但他学的不一定是我们希望他学的，他也不是以我们可以预测的方式学习。但实际上我们是通过指导来教婴儿学习的，我们需要将婴儿暴露在大量的物体和概念，以及无限的主题中。

我们需要教会婴儿有关方向、动物和植物、重力和其他物理性质、阅读和语言、食物的类型和元素，等等的知识——有关存在的一切概念。随着婴儿渐渐长大，所有这些概念都可以通过“指示——说明”的方式解释，以及通过回答孩子们无穷无尽的问题教给他们。

这是十分艰巨的任务，但大多数父母，以及小孩们周围的人每天都在这样做。神经网络也有如同人类婴儿的需求，但它的关注点通常较为狭窄，我们并不是真的与它交互，因此它要求的标签要更加精确。

当前，AI研究者和科学家们通过多种方式获取数据来训练他们的机器。第一种方式是自己去收集数据，创建一个巨大的有标签数据集。这是谷歌、亚马逊、百度、苹果、微软、Facebook等大公司的做法，他们的共同点是拥有大量的业务，能够产生惊人的数据量。

尝试在这里列举所有内容是不现实的，试想一下上传到这些公司的云存储空间的数以十亿计的带标签或标记的图像，以及所有文档，搜索查询（通过语音，文本，图像和光学字符识别），位置数据和地图，评级、喜好和共享内容，购物信息，发货地址，电话号码，地址簿，以及社会关系，等等。

传统的实体企业，以及任何规模庞大的公司，通常在机器学习方面拥有独特的优势，因为它们拥有大量特定类型的数据（这些数据可能有价值，可能没什么价值，不过大多是有价值的）。

获取数据的难题

如果你的公司不是拥有海量数据的财富100强公司，那么最好是使用共享数据。获取大量多样化的数据是AI研究的关键。幸运的是，现在公开分享的、可免费获取的有标签数据集已经涵盖了大部分类别。

根据你的需求，从人脸表情、肢体语言到公众人物面孔等等各种各样的数据集都可以得到。你能够找到数百万有关人群、森林或者宠物（各种各样的宠物）的图片，也能够筛选大量用户或购买者的评价。也有数据集包含垃圾邮件、各种语言的推文，博客文章，以及法律案例报告。

传感器越来越普遍，例如医学传感器，运动传感器，智能设备的陀螺仪，热传感器等，它们产生了各种新类型的数据。此外，有无数照片有关人们拍的食物，葡萄酒标签或标语路牌。换句话说，纯粹形式的数据一点也不缺乏。

那么问题哪里？

尽管数据无处不在，但在实践中，事实证明这些数据的集合并不全是有用的。它们要么是规模太小，要么是标注得不怎么好或者只有部分有标签，又或者它们只是不符合你的需求。例如，假如你希望教机器识别图像中的星巴克商标，可能你找到的图像数据集只有 “饮料”或“咖啡”的标签。缺乏正确的标签，这些数据基本上就毫无用处。再比如，律师事务所或成立较久的公司的数据库中可能拥有数以百万计的合同或其他文件，但这些数据没法用，因为它们可能是简单的未标记的PDF格式。

另一个挑战是确保所使用的训练集规模大，而且要多样化。为什么呢？我们可以通过一个简单的思考实验来探索训练数据的想法。想象一下，假如我们有一个小孩，我们给他取名 Ned，任务是让他识别单词卡片上的西班牙语单词。Ned需要做的只是回答“是的，这是西班牙语”或“不，这不是西班牙语”。

Ned从来没见过西班牙语，他被给到10张随机的单词卡，用来学习西班牙语单词长什么样。其中5张卡片写着西班牙语单词：niño，rojo，comer，uno和enfermos，另外5张卡片写着其他语言的单词：cat，猫，céu，yötaivas和भभ。Ned被告知，如果他能从一套新的卡片中挑出所有西班牙语单词的话，就能得到一大杯冰淇淋的奖励。经过一个小时的学习，现在是测试的时候了。

在第一次测试中，Ned被展示一张西班牙语单词卡片：azul。因为在之前的学习中，字母“a”只出现在非西班牙语卡片，因此Ned认为azul不是一个西班牙语单词。第二张卡片是葡萄牙语的“母亲”一词：mãe，Ned立刻喊道：“西班牙语！”又错了。这是由于他的训练卡片中只有一张卡片上的单词有波浪符号，而这个单词恰好是西班牙语的。第三张卡片上写着“volcano”，Ned注意到它以“o”结尾，于是自信满满地说“西班牙语！”第四张卡片上写着 “منزل”，它的形状跟训练时任何一类的卡片都不太一样，眼看冰淇淋是拿不到了，Ned都快哭出来了！这是Ned的推理技巧有问题，还是训练数据有问题？

一个问题是：数据集太小。Ned的所有精力都花在记忆10张卡片上。在训练深度神经网络这样的复杂模型时，使用的数据集过小可能导致过拟合，这是机器学习中的常见缺陷。

基本上，过拟合是训练样本具有大量可学习的参数带来的结果。模型可能记住了整个训练数据，而不是从数据中学习一般性的概念。

回到我们的识别“苹果”和“橘子”的网络。假如用少量的苹果图像作为训练数据去训练一个大型神经网络，很可能会导致网络学会了训练数据的具体细节——皮是红色的，茎是棕色弯曲的——这些特征只需要在训练数据中进行准确的区分。这些太细的特征可能对于描述训练时的苹果图像表现很好，但在测试时面对新的、从没见过的苹果，这些特征就可能是无关紧要的，甚至是不正确的。

另一个问题是，保持数据的多样性是一个重要的原则。如果Ned在训练时看到一个非西班牙语单词也是以“o”结尾，或者看到更多样化的西班牙语口音标记，那他的表现会更好一些。从统计学角度来看，你获得的各种独特的数据越是多，这些数据的特征就越多样化，范围越大。在训练识别“苹果”和“橘子”的网络的情况下，我们希望这个网络更广泛化，以便能够识别出所有苹果和橘子的图像，无论这些图像是否出现在训练集中。毕竟，不是所有苹果都是红色的，如果我们仅用红苹果的图像训练我们的网络（哪怕我们有大量的这样的图像），这个网络也有在测试时不能识别出青苹果的风险。因此，如果训练期间使用的数据类型有偏差，并且不能代表在测试时预期的数据，那么就可能出现问题。

在很多人工智能中开始出现偏见的问题。用于训练神经网络的数据集反映了收集这些数据的人或群体的偏见。例如，只用红苹果的图像训练识别苹果和橘子的网络，我们的网络就学习了“苹果只能是红色”的偏见。青苹果，黄苹果和焦糖苹果呢？在其他应用，例如人脸识别，数据偏见带来的影响会更显著。

如何获取良好标记的数据？要么招聘人手进行数据标记，但这样做成本高昂，要么世界上所有的公司都突然赞成开放他们的所有专有数据集，并且慷慨地让全世界的科学家免费使用。不然，解决训练数据缺乏的方法就只有不去依赖它了。没错，不是努力去制造尽可能多的训练数据，深度学习的未来可以是朝着无监督学习的方向努力。试想一下我们是如何教会婴儿有关世界的各种概念的。毕竟，虽然我们教给婴儿的知识有很多，但我们作为人类所学会的大多数重要的事情是通过经验获取的，尤其是——无监督的经验。

原文：https://techcrunch.com/2017/07/21/why-the-future-of-deep-learning-depends-on-finding-good-data/

【号外】 新智元正在进行新一轮招聘，飞往智能宇宙的最美飞船，还有N个座位

点击阅读原文可查看职位详情，期待你的加入~