专栏名称: PaperWeekly
PaperWeekly是一个分享知识和交流学问的学术组织,关注的领域是自然语言处理的各个方向。我们热爱知识,分享知识,希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。
目录
相关文章推荐
PaperWeekly  ·  NeurIPS 2024 | ... ·  昨天  
实验万事屋  ·  还指望那些所谓的“SCI套路”,能让你发10 ... ·  6 天前  
51好读  ›  专栏  ›  PaperWeekly

直播预告 | 南洋理工大学博士生邓岳:多语言环境下的大语言模型越狱挑战

PaperWeekly  · 公众号  · 科研  · 2024-10-18 12:36

正文





 AI安全说 第5期 


嘉宾在线解读✔️

在线实时Q&A✔️


 直播主题 


多语言环境下的大语言模型越狱挑战

 直播嘉宾 


邓岳
新加坡南洋理工大学博士生

 直播时间 


2024年10月19日(周六)
10:00-11:00

 观看方式 


PaperWeekly视频号
PaperWeekly B站直播间


一键预约直播



 报告介绍 



大语言模型(LLMs)在许多任务中展现了强大能力,但同时也带来了“越狱”问题,即恶意指令可操控模型产生不良行为。虽然已有多种防护措施被提出,但大多数仅限于英语场景。 


本次 talk 将探讨 LLMs 在多语言环境中的越狱问题,揭示两类风险:无意风险与有意攻击。无意风险指用户在使用非英语提示时,意外绕过安全机制;有意攻击则是恶意用户通过结合多语言提示与恶意指令,故意攻击模型。


实验表明,在无意风险下,低资源语言的有害内容概率是高资源语言的三倍。此外,低资源语言也可作为攻击大模型输出的有效工具。为应对此类挑战,我们提出了 Self-Defence框架,通过自动生成多语言数据进行安全微调。实验结果显示,该方法有效减少了不安全内容的生成。



 嘉宾介绍 

邓岳

新加坡南洋理工大学博士生
邓岳,新加坡南洋理工大学在读博士生,其导师是Sinno Jialin Pan教授。他的研究重点是大模型的安全性问题,例如针对大模型的“越狱”攻击和对检索器的攻击。他的相关研究成果已在顶级国际会议ICLR上发表。目前,他专注于大模型安全的深入攻防研究,致力于为大模型的安全落地提供更加全面的探索与保障。



技术交流群

扫码备注「LLM安全」

立刻加入技术交流群


一键预约直播



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·