专栏名称: 学术头条

致力于科学传播和学术分享，关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度，围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。

OpenAI最新研究：「打假高手」大模型事实性基准SimpleQA来了，已开源

学术头条 · 公众号 · · 2024-10-31 18:02

正文

SimpleQA 是一个事实性基准，用于测量语言模型回答简短的事实性问题的能力。

人工智能（AI）领域的 一个悬而未解的问题是如何训练模型生成符合事实的正确答案 。

目前的语言模型有时会产生错误的输出或没有证据证明的答案，这个问题被称为“幻觉”。语言模型如果能产生更准确的回答，减少幻觉，则更值得信赖，可用于更广泛的应用领域。

为了测量语言模型的事实性，OpenAI 发布并开源了一个名为 SimpleQA 的新基准 。

论文链接：

https://cdn.openai.com/papers/simpleqa.pdf

SimpleQA 是什么？

事实性是一个复杂的话题，因为它很难测量——评估任何给定的任意主张的事实性都很有挑战性，而语言模型可以生成包含数十个事实主张的长篇补全内容。在 SimpleQA 这项工作中，OpenAI 将重点关注简短的事实搜索查询，这虽然缩小了基准的范围，但却使事实性的测量变得更加容易。

通过 SimpleQA，他们希望创建一个具有以下四方面特性的数据集：

高正确性 。问题的参考答案由两个独立的人工智能训练师提供，问题的编写方式使预测答案易于评分。
多样性 。SimpleQA 涵盖了从科学和技术到电视节目和视频游戏等广泛的主题。
对前沿模型的挑 战。与 TriviaQA（2017 年）或 NQ（2019 年）等已趋于饱和的旧基准相比，SimpleQA 的创建对前沿模型（例如，GPT-4o 分数低于 40%）提出了更大挑战。
良好的用户体验 。SimpleQA 的问题和答案简明扼要，因此运行起来既快又简单。无论是通过 OpenAI 的 API，还是其他前沿模型的 API，评分也都非常高效。此外，SimpleQA 有 4326 个问题，作为评估基准，其方差应该相对较小。

他们聘请了人工智能训练师来浏览网络，并创建简短的事实性问题和相应的答案。每个问题都必须符合一系列严格的标准才能被纳入数据集：问题必须有一个单一的、无可争议的答案，以便于评分；问题的答案不能随时间而改变；大多数问题必须能诱发 GPT-4o 或 GPT-3.5 的幻觉。为了进一步提高数据集的质量，第二位独立的人工智能训练师在没有看到原始答案的情况下回答了每个问题。

作为对质量的最后验证，他们让第三位人工智能训练师回答了数据集中随机抽样的 1000 个问题。他们发现，第三位人工智能训练师的答案在 94.4% 的情况下与最初的一致答案相吻合，不一致率为 5.6%。然后，他们对这些示例进行了人工检查，发现在 5.6% 的不一致率中，有 2.8% 是由于评分员的假否定或第三位训练师的人为错误（例如，答案不完整或曲解来源）造成的，其余 2.8% 是由于问题的实际问题（例如，问题含糊不清，或不同网站给出的答案相互矛盾）造成的。因此，他们估计该数据集的固有错误率约为 3%。

SimpleQA 中问题的多样性

下面的饼图显示了 SimpleQA 基准中题目的多样性。

使用 SimpleQA 对语言模型进行比较

为了给问题打分，他们使用了一个 ChatGPT 分类器，它可以看到模型预测的答案和地面实况答案，然后将预测的答案分为“正确”、“不正确”或“未尝试”三个等级。

每个等级的定义和相应示例如下表所示。

理想情况下，模型会回答尽可能多的问题（正确率最高），同时尽量减少错误答案的数量。

利用这种分类方法，他们就可以测量几个不具备浏览功能的 OpenAI 模型的性能，包括 gpt-4o-mini、o1-mini、gpt-4o 和 o1-preview。不出所料， 与 gpt-4o 和 o1-preview 相比，gpt-4o-mini 和 o1-mini 回答的问题正确率较低 ，这可能是因为较小的模型通常对世界的了解较少。并且，与 gpt-4o-mini 和 gpt-4o 相比，o1-mini 和 o1-preview（它们在设计上花了更多时间思考）选择“未尝试”问题的频率更高。这可能是因为它们能利用自己的推理能力来识别不知道问题答案的情况，而不是产生幻觉。

使用 SimpleQA 测量大模型校准能力

像 SimpleQA 这样的事实性基准，也可以被用来测量名为 校准（calibration） 的科学现象，或者说语言模型是否“知道它们知道什么”。测量校准的一种方法是，使用提示语直接要求语言模型说明其对答案的信心：“请给出你的最佳猜测，以及你对正确答案的信心百分比”。然后，他们就可以绘制出模型所述置信度与模型实际准确度之间的相关性。一个经过完美校准的模型，其实际准确度将与所述置信度相同。例如，在模型置信度为 75% 的所有提示中，完美校准模型的准确度将为 75%。

这一结果如下图所示。所述置信度与准确度之间的正相关是一个令人信任的迹象，表明模型具有一定的置信度概念。可以看到， o1-preview 比 o1-mini 的校准度更高，gpt4o 比 gpt4o-mini 的校准度更高 ，这与之前的研究一致，表明大模型的校准度更高。然而，表现远低于 y=x 线这一事实意味着模型始终夸大了其置信度。因此，在所述置信度方面，大语言模型的校准还有很大的改进空间。

OpenAI最新研究：「打假高手」大模型事实性基准SimpleQA来了，已开源

正文

SimpleQA 是什么？

SimpleQA 中问题的多样性

使用 SimpleQA 对语言模型进行比较

使用 SimpleQA 测量大模型校准能力

请到「今天看啥」查看全文