中国信通院联合淘天集团发布大语言模型中文安全领域事实性评测数据集

中国信通院CAICT · 公众号 · · 2024-12-19 15:40

正文

在当今迅速发展的人工智能时代，大语言模型在各种应用中发挥着至关重要的作用。大语言模型优异的安全性表现要求其能准确、全面和清晰地理解掌握运用安全知识，尤其是在法律、政策和伦理等敏感领域。具体而言，大语言模型的回复不仅需要符合基本的安全原则和标准，在复杂的情境中还需基于安全原则和标准进行逻辑推理和判断以形成安全性回复。对于安全知识的深刻理解能力将直接关系到大语言模型在现实应用场景中的安全水平。

现有的大语言模型安全评测数据集，往往依赖于特定场景的问题设置，但却未对大语言模型的安全知识理解掌握运用能力进行客观全面评测。在此背景下，为了更好地评估大语言模型在回复简短事实性安全问题上的能力，中国信通院安全研究所联合淘天集团算法技术-未来实验室共同推出Chinese SafetyQA，这是面向大语言模型的首个中文安全领域事实性评测数据集。该数据集具有以下7方面优势：

1. 中文： 该数据集使用中文，并且聚焦于我国相关的安全知识，特别是我国法律法规、道德标准和文化环境等领域。

2. 高质量： 使用该数据集评测了OpenAI o1-preview、OpenAI GPT-4、LLaMA、Claude-3.5、Qwen、Doubao等国内外38个开源和闭源大语言模型。从评测结果看，只有三个大语言模型达到及格线（60分）以上，最高分也仅为73分。

3. 全面性： 该数据集包含7个一级类目、27个二级类目和103个三级类目。全面涵盖了违法违规、伦理道德、偏见歧视、辱骂仇恨、身心健康、谣言错误、网络安全理论知识等多维度安全知识。

4. 易评估： 与OpenAI的SimpleQA数据集相比，该数据集同时提供了问答（QA）和多选（MCQ）两种问题形式，保证了测评问题和大语言模型的回答都是简短清晰的，降低了评测难度。

5. 定期迭代： 中国信通院安全研究所与淘天集团相关团队将联合定期对该数据集进行周期性迭代，以保证其对我国最新法律法规的适应性。

6. 稳定： 该数据集当前版本中的所有测评问题可满足两项稳定性要求，一是涉及的安全知识均截至于2023年底，二是答案不随时间变化而改变。

7. 无害化： 该数据集所有测评问题均是合法合规的无害化内容。

Chinese SafetyQA数据集涵盖的三级风险类目

Chinese SafetyQA的推出，为业界提供了一个更为全面客观公正的评测数据集，用于帮助研发人员持续提升大语言模型安全性水平。而且，为保障数据集长期有效，不被大语言模型采集用于针对性训练以提高虚假安全性，本数据集分为开源和闭源两部分。开源部分用于行业内共享使用，闭源部分用于持续监测大语言模型的安全性提升情况。

点击“ 阅读原文 ”，获取开源测评数据集。

数据集咨询可联系：

[email protected]