深度学习网络(DNN)是一种大型的网络,由一系列的神经元,每层神经元都是一个独立的计算单元。(Zhang et al. 2020)神经元通过不同的权值和偏差连接,在经过激活函数传给下一层的神经元。DNN通过这种方式来学习新的知识,并学会处理大量的图片以及文本,能够完成图片的识别与分类,对文本的阅读理解等工作。
但是随着模型性能的不断优化,很多研究者对模型的鲁棒性进行研究的时候发现,DNN模型在原始任务经过微小改动之后会出现误判的现象,最终在2014年对抗这个概念被第一次被提出来。Szegedy等人(Szegedy et al. 2014)在研究中发现,即使是当时最先进的用于图像分类的神经网络模型,在输入图片样本上产生微小扰动后该分类器也无法正确的将样本归类,但是产生扰动的图片在肉眼上看起来和之前是没有任何差别的。Szegedy等人在论文中将被扰动的像素称为对抗样本。Jia和Liang(Jia and Liang 2017)是第一个在处理文本的任务中进行对抗攻击的,他们的工作很快引起了NLP研究员的注意,但是由于图像和文本数据的内在差异,用来做图像样本对抗的方式并不能够直接用在文本数据中,但在此之后在文本对抗领域也提供了更多角度多种的攻击方式与防御方式。
在文中(Jia and Liang 2017)Jia等人提出了通过插入分散模型注意力的句子使得模型回答出错误的答案,而人类则可以正确回答这个问题。作者简单举了一个例子如下Figure 1,因为作者加了一句话,即蓝笔标出的,导致原本鲁棒性的系统回答出了错误答案。作者主要采用的是直接将可以引起模型出错的句子和原始段落连接起来,使得模型误判。
Bowman, Samuel R, Gabor Angeli, Christopher Potts, and Christopher D Manning. 2015. “A Large Annotated Corpus for Learning Natural Language Inference.” arXiv Preprint arXiv:1508.05326.
Gan, Wee Chung, and Hwee Tou Ng. 2019. “Improving the Robustness of Question Answering Systems to Question Paraphrasing.” In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 6065–75.
Jia, Robin, and Percy Liang. 2017. “Adversarial Examples for Evaluating Reading Comprehension Systems.” arXiv Preprint arXiv:1707.07328.