来源:techcrunch
作者:Ophir Tanz
编译:刘小芹
【新智元导读】
这篇文章
讨论了在深度学习中为什么高质量、有标签的数据如此重要,从哪里得到这些数据,以及如何有效使用它们。作者最后提出,解决训练数据缺乏的方法可以是不去依赖它们,
深度学习的未来可以朝着无监督学习的方向努力。
深度学习的一个主要组成部分是数据——用于训练神经网络的图像、视频、电子邮件、驾驶模式、话语、对象等等。
令人惊讶的是,尽管我们的世界几乎被数据淹没——目前每天产生约2.5万亿字节的数据,但大部分是没有标记或非结构化的,这意味着对当前大部分监督学习形式来说,这些数据是不可用的。深度学习尤其依赖良好、结构化、且有标记的数据。
本文中,我们将讨论为什么高质量、有标记的数据如此重要,从哪里得到这些数据,如何使用它们,以及在短期内机器学习可以期待什么样的解决方案。
数据被馈送给神经网络,这些网络能够快速对数据进行分析,甚至提纯。这个过程被称为监督学习,因为提供给机器的大量数据是已经提前精心标记过的。例如,为了训练一个能够识别苹果或橘子的图像的神经网络,需要喂给它已经分别标记为苹果或橘子的图像。通过找到所有被标记为苹果或橘子的图像的共同特征,机器能够理解数据,从而使用从这些数据中发现的模式去识别新的图像。它们得到的有标签图像越多,数据集越大、越多样化,它们的预测准确性就越高。也就是说,熟能生巧。
这种方法在教机器有关视觉的任务方面十分有效,例如如何从图像、视频、图形、手写字体等数据中识别出任何东西。现在机器在一些任务中达到甚至超越人类水平已经非常常见,尤其是在图像识别应用中。例如,Facebook的人脸识别系统准确率已经达到97%,而谷歌今年初发布一个用于在医学图像中发现恶性肿瘤的神经网络,其准确率比病理学家更高。
与监督学习相对的是无监督学习。无监督学习的想法是,让机器潜入数据的海洋中,自己去发现和体验,寻找模式和关联,并得出结论,这个过程不需要人的指导。
这种技术长期以来不被一部分人工智能科学家看好,但是,在2012年,谷歌展示了一个能从大量未标记图像中识别出猫,脸,以及其他物体的深度神经网络。这一技术非常令人印象深刻,并产生了一些非常有趣或者有用的结果,但到目前为止,在许多任务中无监督学习的准确率和有效性仍不及监督学习。
将机器与人类婴儿进行比较是有用的。我们知道,人类婴儿即使没有得到指导,他也会学习,但他学的不一定是我们希望他学的,他也不是以我们可以预测的方式学习。但实际上我们是通过指导来教婴儿学习的,我们需要将婴儿暴露在大量的物体和概念,以及无限的主题中。
我们需要教会婴儿有关方向、动物和植物、重力和其他物理性质、阅读和语言、食物的类型和元素,等等的知识——有关存在的一切概念。随着婴儿渐渐长大,所有这些概念都可以通过“指示——说明”的方式解释,以及通过回答孩子们无穷无尽的问题教给他们。
这是十分艰巨的任务,但大多数父母,以及小孩们周围的人每天都在这样做。神经网络也有如同人类婴儿的需求,但它的关注点通常较为狭窄,我们并不是真的与它交互,因此它要求的标签要更加精确。
当前,AI研究者和科学家们通过多种方式获取数据来训练他们的机器。第一种方式是自己去收集数据,创建一个巨大的有标签数据集。这是谷歌、亚马逊、百度、苹果、微软、Facebook等大公司的做法,他们的共同点是拥有大量的业务,能够产生惊人的数据量。
尝试在这里列举所有内容是不现实的,试想一下上传到这些公司的云存储空间的数以十亿计的带标签或标记的图像,以及所有文档,搜索查询(通过语音,文本,图像和光学字符识别),位置数据和地图,评级、喜好和共享内容,购物信息,发货地址,电话号码,地址簿,以及社会关系,等等。
传统的实体企业,以及任何规模庞大的公司,通常在机器学习方面拥有独特的优势,因为它们拥有大量特定类型的数据(这些数据可能有价值,可能没什么价值,不过大多是有价值的)。
如果你的公司不是拥有海量数据的财富100强公司,那么最好是使用共享数据。获取大量多样化的数据是AI研究的关键。幸运的是,现在公开分享的、可免费获取的有标签数据集已经涵盖了大部分类别。
根据你的需求,从人脸表情、肢体语言到公众人物面孔等等各种各样的数据集都可以得到。你能够找到数百万有关人群、森林或者宠物(各种各样的宠物)的图片,也能够筛选大量用户或购买者的评价。也有数据集包含垃圾邮件、各种语言的推文,博客文章,以及法律案例报告。
传感器越来越普遍,例如医学传感器,运动传感器,智能设备的陀螺仪,热传感器等,它们产生了各种新类型的数据。此外,有无数照片有关人们拍的食物,葡萄酒标签或标语路牌。换句话说,纯粹形式的数据一点也不缺乏。
尽管数据无处不在,但在实践中,事实证明这些数据的集合并不全是有用的。它们要么是规模太小,要么是标注得不怎么好或者只有部分有标签,又或者它们只是不符合你的需求。例如,假如你希望教机器识别图像中的星巴克商标,可能你找到的图像数据集只有 “饮料”或“咖啡”的标签。缺乏正确的标签,这些数据基本上就毫无用处。再比如,律师事务所或成立较久的公司的数据库中可能拥有数以百万计的合同或其他文件,但这些数据没法用,因为它们可能是简单的未标记的PDF格式。
另一个挑战是确保所使用的训练集规模大,而且要多样化。为什么呢?我们可以通过一个简单的思考实验来探索训练数据的想法。想象一下,假如我们有一个小孩,我们给他取名 Ned,任务是让他识别单词卡片上的西班牙语单词。Ned需要做的只是回答“是的,这是西班牙语”或“不,这不是西班牙语”。
Ned从来没见过西班牙语,他被给到10张随机的单词卡,用来学习西班牙语单词长什么样。其中5张卡片写着西班牙语单词:niño,rojo,comer,uno和enfermos,另外5张卡片写着其他语言的单词:cat,猫,céu,yötaivas和भभ。Ned被告知,如果他能从一套新的卡片中挑出所有西班牙语单词的话,就能得到一大杯冰淇淋的奖励。经过一个小时的学习,现在是测试的时候了。
在第一次测试中,Ned被展示一张西班牙语单词卡片:azul。因为在之前的学习中,字母“a”只出现在非西班牙语卡片,因此Ned认为azul不是一个西班牙语单词。第二张卡片是葡萄牙语的“母亲”一词:mãe,Ned立刻喊道:“西班牙语!”又错了。这是由于他的训练卡片中只有一张卡片上的单词有波浪符号,而这个单词恰好是西班牙语的。第三张卡片上写着“volcano”,Ned注意到它以“o”结尾,于是自信满满地说“西班牙语!”第四张卡片上写着 “منزل”,它的形状跟训练时任何一类的卡片都不太一样,眼看冰淇淋是拿不到了,Ned都快哭出来了!这是Ned的推理技巧有问题,还是训练数据有问题?