「大模型安全挑战赛」来袭！

机器学习算法与自然语言处理 · 公众号 · · 2024-06-13 09:00

正文

MLNLP 社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景 是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | THU基础模型

在大模型技术蓬勃发展的背景下，大模型潜在的安全风险与隐患也日益凸显，引起了国内外的广泛关注和担忧。确保大模型准确响应用户指令并保证输出内容的安全合规性，对于其在实际业务场景中的应用至关重要。

然而，大模型在实际应用中面临着任务指令被劫持的风险，可能导致模型无法按照用户的特定要求执行任务，从而严重降低其实用性。

此外，大模型还可能生成隐晦的不安全内容，这些内容可能规避内容安全检测模型的识别，从而导致不安全内容的输出。这两大安全问题极大限制了大模型在各种业务环境中的有效性和可靠性。

赛事概况

针对前述问题， 中国计算机学会（CCF） 作为主办单位， 中国计算机学会 大模型论坛（CCF FoLM） 作为承办单位，携手 清华大学基础模型研究中心 开展大模型安全挑战赛活动，设置两个赛道任务：

「 通用的大模型目标劫持 」和「 内容安全检测器的红队攻击 」。

我们诚挚邀请各方专家和学者积极参与大模型安全挑战赛，共同探索解决这些安全问题的创新方法和策略，为大模型技术的健康发展保驾护航。

赛程安排

本次大赛分为报名组队、初赛、复赛和颁奖三个阶段，具体安排和要求如下：

报名组队 ：即日起--7月20日（截止20日晚24:00）

初赛阶段 ：6月20日--7月30日（截止30日晚24:00）

复赛阶段 ：8月1日--8月6日（截止6日晚24:00）

评测颁奖 ：CNCC 2024

两段赛事结束后，专家评委组将评选出优胜团队，并颁发 丰厚奖励 ！

报名方式

本次赛事平台由天池提供合作支持 。各位选手登录比赛官网，完成个人信息注册后，即可报名参赛；选手可以单人参赛，也可以组队参赛，每队不超过3人，每位选手只能加入一支队伍。

报名链接

赛道1： https://tianchi.aliyun.com/competition/entrance/532187

赛道2： https://tianchi.aliyun.com/competition/entrance/532214

赛题描述

赛道1：通用的大模型目标劫持

任务简介

确保大模型准确响应用户指令，对其在实际业务中的应用至关重要。然而，大模型面临任务指令被劫持的风险，即通过在初始任务指令后添加劫持指令，令模型放弃初始任务而执行特定劫持任务，严重影响其可用性。

赛题描述

主办方为大模型设定初始任务，参赛者需要设计攻击指令进行劫持，使大模型放弃初始任务而执行主办方指定的目标任务。

赛道2：内容安全检测器的红队攻击

任务简介

对大模型生成内容进行安全检测，是确保其安全输出的重要环节。现有内容安全检测器主要聚焦于基础安全风险，即模型生成的内容中包含显式的不安全内容。然而，随着大模型语言能力的增强，其可能通过丰富的语言技巧（例如，隐喻）生成隐式的不安全内容，规避内容安全检测模型的识别，导致不安全输出。

赛题描述

参赛者自主构建query-response的单轮对话，诱导内容安全检测模型误判对话回复的安全性。

评选标准

具体的参赛作品评审标准我们将在赛事正式启动之前发布！

奖励设置

本次赛事奖金总额合计 人民币30万元 ！每个赛道分别设置15万元人民币奖金，分别评选一等奖、二等奖和三等奖队伍1、2、3个。

组织信息