专栏名称: 人工智能头条

专注人工智能技术前沿、实战技巧及大牛心得。

神经网络太好骗？清华团队如何做到打NIPS攻防赛得3冠军的

人工智能头条 · 公众号 · AI · 2018-11-20 08:28

正文

大家好，我是为人造的智能操碎了心的智能禅师。

今天带来的文章，由同济大学研究生张子豪投稿。介绍了人工智能与信息安全的交叉前沿研究领域：深度学习攻防对抗。

文章介绍了如何用对抗样本修改图片，误导神经网络指鹿为马；对 NIPS 2017 神经网络对抗攻防赛 3 项冠军清华团队的算法模型进行了解读。

文章部分内容来自 2018 CNCC 中国计算机大会—人工智能与信息安全分会场报告。

本文内容不代表人工智能头条及智能禅师观点。

TD;DR

GAN 一点都不撸棒，简直不要太好骗：胖达变成猴，山误认为狗

对抗样本不是仅在最后预测阶段产生误导，而是从特征提取过程开始就产生误导

NIPS 2017 神经网络对抗攻防赛中，清华大学的学霸们采用了多种深度学习模型集合攻击的方案，训练出的攻击样本具备良好的普适性和可迁移性。

全文大约3500字。读完可能需要好几首下面这首歌的时间

👇

胖虎和吴亦凡，边界是如此的模糊

王力宏和张学友，看上去竟如此的神似

人脸识别、自动驾驶、刷脸支付、抓捕逃犯、美颜直播…人工智能与实体经济深度结合，彻底改变了我们的生活。神经网络和深度学习貌似强大无比，值得信赖。

但是人工智能是最聪明的，却也是最笨的，其实只要略施小计就能误导最先进的深度学习模型指鹿为马。

大熊猫 = 长臂猿

早在2015年，“生成对抗神经网络 GAN 之父” Ian Goodfellow 在 ICLR 会议上展示了攻击神经网络欺骗成功的案例。

在原版大熊猫图片中加入肉眼难以发现的干扰，生成对抗样本。就可以让 Google 训练的神经网络误认为它 99.3% 是长臂猿。

阿尔卑斯山 = 狗

2017 NIPS 对抗样本攻防竞赛案例：阿尔卑斯山图片篡改后被神经网络误判为狗、河豚被误判为螃蟹。

对抗样本不仅仅对图片和神经网络适用，对支持向量机、决策树等算法也同样有效。

那么，具体有哪些方法，可以把 人工智能 ，变成 人工智障 呢？

逃逸攻击可分为白盒攻击和黑盒攻击。

白盒攻击 是在已经获取机器学习模型内部的所有信息和参数上进行攻击，令损失函数最大，直接计算得到对抗样本.

黑盒攻击 则是在神经网络结构为黑箱时，仅通过模型的输入和输出，逆推生成对抗样本。下图左图为白盒攻击（自攻自受），右图为黑盒攻击（用他山之石攻此山之玉）。

对机器学习模型的逃逸攻击，绕过深度学习的判别并生成欺骗结果，攻击者在原图上构造的修改被称为 对抗样本 。

神经网络对抗样本生成与攻防是一个非常有（zhuang）趣（bi）且有前景的研究方向。

2018年，Ian Goodfellow 再发大招，不仅欺骗了神经网络，还能欺骗人眼。

论文链接👇

https://arxiv.org/abs/1802.08195

文中提出了首个可以欺骗人类的对抗样本。下图左图为猫咪原图，经过对抗样本干扰之后生成右图，对于右图，神经网络和人眼都认为是狗。

下图中，绿色框为猫的原图。左上角显示了攻击的目标深度模型数量越多，生成的图像对人类来说越像狗。左下角显示了针对 10 个模型进行攻击而生成的对抗样本，当 eps = 8 的时候，人类受试者已经把它认成狗了。

除此之外，人工智能还面临模型推断攻击、拒绝服务攻击、传感器攻击等多种信息安全挑战。

对抗样本会在原图上增加肉眼很难发现的干扰，但依旧能看得出来和原图的区别，下图左图为对抗样本，右图为熊猫原图。

对抗样本不是仅在最后预测阶段产生误导，而是从特征提取过程开始就产生误导. 下图展示了第147号神经元分别在正常深度学习模型和对抗样本中的关注区域。在正常模型中，第147号神经元重点关注小鸟的头部信息。在对抗样本中，第147号神经元则完全被误导了，关注的区域杂乱无章。

同时也说明， 对抗样本不是根据语义生成的 ，它并不智能。而且，正如接下来讲述的，对抗样本对图片预处理过程非常敏感，任何区域截图、放大缩小、更换模型都很容易让对抗样本失效。