专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
爱可可-爱生活  ·  【Even ... ·  昨天  
爱可可-爱生活  ·  【AMD Nitro ... ·  昨天  
新智元  ·  2024 ACL ... ·  3 天前  
宝玉xp  ·  //@Rex牙醫:说得好-202412120 ... ·  4 天前  
51好读  ›  专栏  ›  新智元

【让神经网络能够“通感”】MIT 和谷歌研究连接文字、声音和视频

新智元  · 公众号  · AI  · 2017-06-26 10:07

正文

  新智元报道  

来源:QZ,arXiv

作者:文强


【新智元导读】如何让神经网络学会完成一项任务后,不忘记已有的知识,再次学会另一项任务?日前,来自 MIT 和谷歌研究人员分别朝着这一目标做出了努力。MIT 的研究创造了一种方法,让算法能将不同形式的概念——声音、图像和文字——联系起来,谷歌的研究则用单一的一个深度学习模型,学会文本、图像和翻译这些不同领域的 8 种不同任务,朝“一个模型解决所有问题”迈出了重要一步。



神经网络学习某件事情,是靠加强神经元之间的连接,也即调整权重来完成。这也意味着,一旦神经网络学会了做某件事情,神经元之间的连接也固定下来,于是,再让这个神经网络学做另一件事情,就必须改变已有的连接/权重,相当于不得不“忘记”已经学到的知识。


这种现象被人工智能研究人员称之为“灾难性遗忘”问题(catastrophic forgetting)。今年 3 月,在 AlphaGo 获胜一周年的时候,DeepMind 在 PNAS 发表研究成果,利用监督学习和强化学习,让神经网络成功在学习新任务的同时,不忘老的任务,向着自适应学习迈出重要一步,也证明了灾难性遗忘并非不可逾越的问题。


具体说,当时 DeepMind 研究人员借鉴了神经科学的原理,从哺乳动物和人类的大脑固化以往知识的理论中汲取灵感,提出“弹性权重固化”(Elastic Weight Consolidation,EWC)方法,让系统在学会玩一个游戏以后,不忘此前学到的内容,继续学习玩新的游戏。


在发表这项成果时,DeepMind 研究员表示,他们的工作证明了神经网络可以实现序列性学习,但对学习效率是否有提升还不明确。


日前,两项分别来自 MIT 和谷歌的研究,在此基础上更进一步,让人工智能系统在同一时间能够完成多项任务。其中,谷歌的研究还揭示了对应完成单独任务的模块及相应学习效率的联系。它们都为人工智能系统迈向“通用”“全能”打下了重要的基础。



MIT 研究:让神经网络具有“通感”的能力


谷歌的研究新智元此前已经有相关报道,所以,我们首先来看 MIT 的研究。



在接受 QZ 采访时,MIT 研究的第一作者、博士后 Yusuf Aytar 表示,他们研究的关键在于“一致”(align)。


在这项工作中,MIT 的研究人员并没有教给他们的算法任何新东西,而是创造了一种方法,让算法能将不同形式的概念——声音、图像和文字——联系起来。例如,输入一段足球赛的音频,系统会输出另一段与足球赛相关的音频,还输出踢足球的图像和文字描述。



为了训练这个系统,MIT 的研究人员首先向神经网络展示了与音频相关联的视频。网络首先将视频中的物体和音频中的声音关联起来,然后会试着预测哪些对象与哪个声音相关。例如,在什么时候波浪会发出声音。


接下来,研究人员将配有类似情况的图说的图像馈送到网络中,让算法将文字描述与物体和动作相关联。首先,网络识别出图片中所有的物体,以及音频中所有的相关单词,然后将词和物体关联起来。


除了输入音频,输出图像和文字,研究人员还做了其他实验,比如输入一张吉娃娃犬的图片,算法能够输出一段带有(其他类型的)狗叫声的音频、其他狗的图片和描述狗的文字。



MIT 研究的意义在于,在使用音频和图像,以及图像和文本训练后,系统能够将音频和文本匹配起来,而这是系统之前没有接触过的。研究人员表示,这表明系统生成了一个更客观的观念,能够将看到、听到或阅读到的信息关联起来,而不仅仅依赖训练时接触到的信息。


Aytar 在接受 QZ 采访时说:“系统知道 [斑马] 是一种动物,它知道斑马会产生这种声音,而且在本质上知道这种信息是跨模式传递的(across modalities)。”这样的假设使算法能在各种概念间建立新的联系,加强对世界的理解。



谷歌大脑研究:一个深度学习模型,语音、图像、文本“通吃”



或许你已经知道了,谷歌的研究就是之前新智元报道过的,“用一个模型学会所有问题”(One Model to Learn Them All)。


谷歌研究人员提出了一个多模型适用的架构 MultiModel,用单一的一个深度学习模型,学会各个不同领域的多种不同任务。


具体说,谷歌研究员同时在以下 8 个任务上训练 MultiModel:


(1)WSJ 语料库

(2)ImageNet 数据集

(3)COCO 图说生成数据集

(4)WSJ 语义解析数据集

(5)WMT 英-德翻译语料库

(6)与(5)相反:德-英翻译语料库

(7)WMT 英-法翻译语料库

(8)与(7)相反:德-法翻译语料库


图1:MulitModel 能够完成不同领域不同任务。其中,红色表示语言相关的任务,蓝色表示分类相关的任务。


MultiModel 由多个部分构成,比如不同的卷积层、注意力机制和混合专家层。每个部分此前都没有在其他任务上训练过。例如,卷积层此前没有处理过文本或语音任务;混合专家层也没有处理过图像或语言相关的任务。

作者发现,每个单独的模块对于相应的任务而言都十分重要,比如注意力机制在解决与翻译相关的任务时,远比在处理图像任务中重要。


MultiModel 的架构示意图


实验结果,谷歌研究人员提出的模型在所有上述任务中都取得了良好的结果——虽然具体到一项任务,结果并不是当前最佳的。


类似,MIT 的系统也并没有在所有单项任务上取得最佳结果。


不过,Aytar 认为这并不是问题。“当你使用的传感器多了,准确度就会提高。”