专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

直播预告 | 复旦大学白泽智能团队：大模型安全的前沿进展与挑战

PaperWeekly · 公众号 · 科研 · 2024-10-22 12:36

正文

AI安全说第6期

嘉宾在线解读✔️

在线实时Q&A✔️

直播主题

大模型安全生态总览：

前沿进展与挑战

直播嘉宾

黄元敏

复旦大学在读博士生

陆逸凡

复旦大学在读博士生

直播时间

2024年10月26日（周六）

19:30-21:00

观看方式

PaperWeekly视频号

PaperWeekly B站直播间

一键预约直播

▼

报告介绍

大模型与智能体安全

近年来，大模型技术的飞速发展已经深刻改变了自然语言处理任务的处理方式，并推动了基于大模型的智能体应用的广泛发展。

本次 talk 将聚焦大模型与智能体面临的多种安全风险及相应的应对策略。首先，会介绍复旦白泽智能团队在大模型安全评测与防护方面的系列研究工作 JADE，包括自动化大模型安全评测、能够同时提升安全性和有用性的大模型安全微调等。

接着，报告将探讨近期国内外智能体技术的发展及其相关安全研究，涵盖任务规划、工具调用、多智能体协作等应用场景，以及随之而来的安全威胁，如注入攻击和投毒攻击等。

大模型的保护与溯源

当下，大模型（如大语言模型、多模态大模型等）发展迅速，深刻影响着各个领域。然而在实际应用中，也出现了一系列新问题，包括模型窃取、深度伪造等，大模型的产权问题引起广泛关注。

本次 talk 将探讨基于水印技术的大模型保护与溯源方法。首先会介绍大模型的商业化进展以及发展趋势；接着，介绍模型水印的基本概念与代表性工作，并分享我们近期被 CCS'24 录用的黑盒水印通用移除攻击的研究。

最后，介绍内容水印的基本概念，以及在文本及图像数据上实现 AIGC 内容溯源的解决方案。通过对大模型产权问题的深入研究，可以更好地保障模型安全、内容安全，为AI的可持续发展提供有益的建议。

嘉宾介绍

黄元敏

复旦大学白泽智能团队博士生

黄元敏，复旦大学白泽智能团队博士生，导师为张谧教授。研究方向为深度学习模型的鲁棒性问题，涉及文本、图像、3D点云、时间序列等领域，并已在CVPR、ESORICS等顶级国际会议上发表相关研究成果。目前，他的研究兴趣集中于大模型与智能体的安全性，致力于评估和保障大模型及智能体在内容生成、任务规划、工具调用等应用中的安全性。

陆逸凡

复旦大学白泽智能团队博士生

陆逸凡，复旦大学白泽智能团队博士生，导师为张谧教授。研究方向是深度学习系统的知识产权保护，包括图像、文本、图等模态上的深度学习模型或数据保护，已有相关工作发表在安全旗舰会议CCS、USENIX Security、ESORICS上。目前，他的研究兴趣集中于大语言模型以及多模态大模型的知识产权保护，为大模型系统的模型安全、数据安全、内容安全提供更加可靠的保障。

技术交流群

扫码备注「LLM安全」

立刻加入技术交流群

一键预约直播

▼

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧