专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

直播预告 | 南洋理工大学博士生邓岳：多语言环境下的大语言模型越狱挑战

PaperWeekly · 公众号 · 科研 · 2024-10-18 12:36

正文

AI安全说第5期

嘉宾在线解读✔️

在线实时Q&A✔️

直播主题

多语言环境下的大语言模型越狱挑战

直播嘉宾

邓岳

新加坡南洋理工大学博士生

直播时间

2024年10月19日（周六）

10:00-11:00

观看方式

PaperWeekly视频号

PaperWeekly B站直播间

一键预约直播

▼

报告介绍

大语言模型（LLMs）在许多任务中展现了强大能力，但同时也带来了“越狱”问题，即恶意指令可操控模型产生不良行为。虽然已有多种防护措施被提出，但大多数仅限于英语场景。

本次 talk 将探讨 LLMs 在多语言环境中的越狱问题，揭示两类风险：无意风险与有意攻击。无意风险指用户在使用非英语提示时，意外绕过安全机制；有意攻击则是恶意用户通过结合多语言提示与恶意指令，故意攻击模型。

实验表明，在无意风险下，低资源语言的有害内容概率是高资源语言的三倍。此外，低资源语言也可作为攻击大模型输出的有效工具。为应对此类挑战，我们提出了 Self-Defence框架，通过自动生成多语言数据进行安全微调。实验结果显示，该方法有效减少了不安全内容的生成。

嘉宾介绍

邓岳

新加坡南洋理工大学博士生

邓岳，新加坡南洋理工大学在读博士生，其导师是Sinno Jialin Pan教授。他的研究重点是大模型的安全性问题，例如针对大模型的“越狱”攻击和对检索器的攻击。他的相关研究成果已在顶级国际会议ICLR上发表。目前，他专注于大模型安全的深入攻防研究，致力于为大模型的安全落地提供更加全面的探索与保障。