【博士论文】自然语言处理中的不确定性

数据派THU · 公众号 · 大数据 · 2024-10-18 17:00

正文

来源：专知
本文为论文介绍，建议阅读5分钟




    
在过去十年中，深度学习领域催生了越来越强大的系统，并已在各种应用中广泛部署。

在自然语言处理领域，随着一系列突破性进展的出现，包括大型语言模型的开发，领域已发生了巨大的变革。如今，这些模型被越来越多地应用于面向用户的应用程序中。为了充分利用这项技术并减少潜在的危害，量化模型预测的可靠性以及伴随其开发的不确定性显得尤为重要。

本论文研究了如何从语言学、统计学和神经网络的角度来表征自然语言处理中的不确定性，以及如何通过实验流程的设计来量化和降低这种不确定性。我们进一步通过理论和实证研究，探讨了在文本分类任务中归纳模型偏差对不确定性量化的影响。相关实验涉及三种不同语言（丹麦语、英语和芬兰语）和任务的数据集，以及一套广泛的不确定性量化方法。此外，我们提出了一种基于非交换性保序预测的自然语言生成中的校准采样方法，该方法能够提供更紧密的词元集合，并更好地涵盖实际的续文本。最后，我们开发了一种方法，通过辅助预测器来量化大型黑箱语言模型的置信度，在这种方法中，置信度仅依赖于目标模型的输入和生成的输出文本进行预测。

1.1 动机

每个人的生活都充满了决策。这家餐厅真的像评论所说的那么好吗？我应该在这里工作，还是去另一个更有趣但更远的城市工作？这些决策往往难以评估，因为并非所有必要的信息都是事先已知的：餐厅评论可能是虚假的或有偏见的，而一个看似有前途的工作机会也可能与宣传不符。相比之下，象棋是一种“完美信息”的游戏，在游戏中棋盘上所有棋子的位置信息和可能的走法都是已知的，因此理论上每一步都可以做出最优选择（假设拥有良好的下棋能力）。然而，在现实生活中，我们往往并不拥有做出完美决策所需的所有信息。因此，人类在决策时会考虑其中的不确定性，以便更好地管理风险。

从这个角度来看，机器在这方面并没有什么不同（或者说不应有不同）。机器学习（ML）领域已有数十年的研究历史，尤其是在最近十年左右的时间里取得了显著进展，产生了从平凡的任务（“这是猫还是飞机的图片？”）到潜在风险较高的任务（“应该推荐哪种治疗方案给患者？”）的各种决策系统。深度学习的出现加速了这一趋势，使我们能够构建更加复杂的系统，以解决愈发复杂的任务。然而，这种系统的复杂性也使我们难以详细理解其内部的“齿轮和螺丝”——即模型的具体运作方式——尤其是当模型规模达到数百万、数十亿甚至数万亿个参数时。这种情况促使了许多研究方向的出现，以期使深度学习系统变得更加稳健、公平和安全。

其中之一就是不确定性量化，即反映预测可信度的研究。在自动决策系统中，此类分数可以用于抑制不确定的预测或请求人工监督。一个常见的例子是自动驾驶：如果车载计算机无法准确评估某个重要的交通标志或某种复杂的交通情境，在这种情况下，人工驾驶员可能会希望能够干预，例如通过减速来应对不确定性，而不是让车辆根据错误评估继续前行，可能危及驾驶员和其他交通参与者的生命安全。

到这里，读者可能会疑惑语言应用是否也存在类似的高风险场景。实际上，这种问题有时以显而易见的方式出现，有时则隐晦一些。一个直观的应用场景是医疗领域：越来越多的研究致力于构建为医务人员提供决策支持的人工智能（AI）系统。例如，模型可以分析用户撰写的文本，以检测心理疾病的迹象或在资源有限时对患者进行分诊（即优先排序）（Cohan et al., 2016；Rozova et al., 2022；Stewart et al., 2022）。在这种情况下，不确定性可以作为信号，提示需要对某个病例进行额外的人工复审。错误且自信的预测可能导致资源浪费、医疗专业人员对系统的信任丧失，甚至在最糟糕的情况下导致紧急病例得不到及时治疗。另一个例子是自然语言系统也被用来协助法律审判（Chalkidis et al., 2019a；Martinez-Gil, 2023；Chalkidis, 2023）。尽管“机器人法官”的场景通常被排除在外，使用于法律调查或研究的模型可能会忽视相关信息或产生误导性输出。尽管不确定性量化在图像或表格数据系统中已是活跃的研究领域，但直到最近才开始引起自然语言处理（NLP）领域的关注。本论文将为初学者介绍机器学习和自然语言处理中的不确定性量化，概述当前的进展，并提出若干方法来应对自动语言处理中的紧迫问题：包括在文本分类中确定最可行的方法，提出适用于自然语言生成的校准采样新方法，以及黑箱模型的置信度估计方法。

1.2 应用

许多关于不确定性量化的研究仅对其实用性做出表面的陈述或隐含的假设。以下内容是一些潜在实际应用的简要总结。

安全性。通常情况下，只要涉及自动化决策且可能对现实世界产生影响的系统，不确定性估计都可以提高安全性。部分此类情况已在AI安全文献中有所研究（见例如 Amodei et al., 2016）：这些应用包括防止智能体探索不安全的选项，或在其环境发生变化（即通常称为分布移位）时防止其做出危险的行为（Shimodaira, 2000；Moreno-Torres et al., 2012）。在这些情况下，可以直接拒绝不确定的选项，或将决策委托给人工用户。
信任。为了从自动化及其对大量数据提取复杂模式的能力中受益，用户必须信任系统的输出，否则可能面临被误导的风险。在最坏的情况下，他们可能会选择忽略甚至敌视自动系统。由于这些系统是非人类的，且通常不透明，因此在建立人机信任方面会面临挑战。尽管如此，一种可以建立的信任感来源于一致性（即预期系统的行为），并通过利用不确定性来理解模型的行为（Jacovi et al., 2021）。我们将在第2.4节中更详细地讨论这一连接。
公平性。大量研究表明，现代深度学习系统往往对数据集中子群体存在歧视倾向，并提出了减轻这些影响的方法（见 Caton 和 Haas, 2024；Mehrabi et al., 2021 的概述）。此外，其他研究则指出，这些偏见源于机器学习流程中的人为偏见，以及训练数据集中群体的偏见和代表不足（Waseem et al., 2021；Meng et al., 2022a）。在后一种情况下，特定的不确定性量化方法可以指示正确预测因缺乏相似训练数据而不确定（见第2.2.2和2.2.3节）。在其他实例中，当输入本身具有歧义时，不公平性可能会发生，例如模型倾向于对数据集中占多数群体作出预测。考虑一个机器翻译系统的示例，假设其需要将“the doctor is here”翻译成西班牙语。在英语中，医生的性别无需指定，而在西班牙语中则需要。因此，在缺乏额外上下文的情况下，两个翻译都是合理的（“el doctor está aquí”与“la doctora está aquí”）。然而，深度学习系统往往更偏好训练数据中更常见的版本，而由于现实中的人类偏见，这一版本可能是“el doctor”（Vanmassenhove et al., 2018）。通过揭示内在的不确定性，我们可以将一些决策转交给用户或其他专业系统，以避免此类问题。
效率。深度学习系统所面对的输入并不总是同样困难。设想一个被训练来区分狮子和老虎图像的系统，当其接收到与其训练实例相似的狮子图片时，我们预期一个训练良好的模型会自信且正确地做出预测。我们当前的许多深度学习系统包含从数百万到数十亿甚至数万亿的可学习参数，因此每次预测都会耗费大量的计算资源。因此，部分研究探讨了我们是否可以利用不确定性来检测模型何时到达可靠的预测，从而跳过不必要的计算（见 Schuster et al., 2021, 2022）。相反，若我们的系统遇到一个“狮虎兽”或拥有不同颜色毛发的白化虎，面对这些困难的示例时，我们可以利用不确定性来触发额外计算以达成结论（见 van der Poel et al., 2022 关于此类机制在机器翻译中的示例）。有证据表明人类大脑以类似的方式运作，例如在人类受试者面对令人惊讶的句子结构时，其阅读时间会增加（Ferreira 和 Henderson, 1991）。
可解释性。由于现代架构的规模，其做出预测的机制可能是模糊且难以为人类推断的。为了解决这个问题，已有多种研究方向（见 Madsen et al., 2023 关于非详尽的选择）产生。可以将不确定性视为理解模型何时表现出过度自信或不确定的额外角度，部分研究已在自然语言生成领域展开（Ott et al., 2018；Xu et al., 2020；Xiao 和 Wang, 2021；Chen 和 Ji, 2022）。尽管存在多种有用的应用，不确定性量化在自然语言处理中的一些挑战仍然很常见，甚至是独特的，与在图像或表格数据上的研究有所不同。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU