【博士论文】大语言模型的测试与评价：准确性、无害性和公平性

数据派THU · 公众号 · 大数据 · 2024-09-19 17:00

正文

来源：专知
本文为论文介绍，建议阅读5分钟




    
本文介绍了我在博士研究期间对语言模型可靠性领域的探索性工作，从自动化软件测试和自然语言处理的角度研究LLMs的准确性、无害性和公平性。

大型语言模型（LLMs），如ChatGPT，凭借其出色的对话能力和智能性，在过去几年中迅速渗透到人们的工作和日常生活中。ChatGPT已经成为人类历史上用户增长最快的软件，并成为下一代人工智能应用的重要基础模型。然而，LLMs的生成内容并非完全可靠，它们经常产生包含事实错误、偏见和有害性的内容。鉴于其庞大的用户群体和广泛的应用场景，这些不可靠的回应可能带来许多严重的负面影响。本文介绍了我在博士研究期间对语言模型可靠性领域的探索性工作，从自动化软件测试和自然语言处理的角度研究LLMs的准确性、无害性和公平性。

首先，为了衡量LLMs的准确性，我们提出了两个新的测试框架：FactChecker和LogicAsker，分别用于评估事实知识和逻辑推理的准确性。FactChecker通过从大规模知识库中检索事实三元组来构建知识图谱，进而生成各种类型的问题及预期答案，作为测试用例。LogicAsker是一个最小功能测试框架，它通过收集逻辑学中的所有基本原理和定律来构建原子技能集，并将标准的逻辑表达式转换为自然语言生成推理问题作为测试用例。我们的测试框架可以自动且全面地生成测试用例，并有效揭示最先进的LLMs（如ChatGPT和LLaMa）的缺陷。此外，我们证明了生成的测试用例可以提高LLMs的事实准确性和逻辑推理能力。

其次，针对LLMs的无害性，我们介绍了两项针对LLMs的红队测试工作。首先，我们发现LLMs的文本内容审查机制在面对用户故意扰乱时不够健全，难以通过审查。为此，我们引入了MTTM，一个用于文本内容审查软件的变异测试框架，其变异关系是有害句子在经过语义保持的扰动后仍应被识别为有害。实验结果表明，MTTM可以发现商业内容审查软件中的漏洞，并提高其可靠性。其次，我们发现现有的安全基准和对齐工作通常仅限于一种语言，如英语。为此，我们建立了第一个多语言安全基准XSafety，涵盖了10种语言中14个常见的安全问题，跨越了多个语系，并发现所有LLMs在处理非英语查询时产生的不安全响应显著多于英语查询。此外，我们提出了一种简单有效的提示方法，通过增强跨语言的安全对齐来提高LLMs的多语言安全性。

第三，为了评估LLMs的公平性，我们提出了两个评估框架：BiasAsker和XCulturalBench，分别用于衡量LLMs的社会偏见和文化偏见。首先，我们介绍了BiasAsker，这是一个用于识别和衡量对话式AI系统中社会偏见的自动化框架。BiasAsker可以生成不同类型的问题，从5,021个带有偏见的属性角度评估对841个群体的偏见态度。我们在10个商业系统和模型上的实验表明了BiasAsker的有效性。接着，我们确定了LLMs中的文化偏见问题，主要由于模型训练和对齐时使用了英语数据，并引入了XCulturalBench，这是一个多语言文化基准，包含具体的文化对象（如节日和歌曲）和抽象的文化对象（如价值观和观念）。实验证据表明，代表性的GPT模型存在严重的文化偏见问题。我们还表明，在模型开发和部署中使用两种直接方法可以显著缓解LLMs中的文化偏见问题。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU