报告介绍
大语言模型 (LLMs) 发展迅速,为多个领域带来了技术革命,但在实践应用中经常面临幻觉、安全和隐私等问题。即便经过安全对齐的大模型,也依然容易被强大的攻击手段绕过。
本次talk将探讨基于知识编辑的大模型内容安全治理方法。首先介绍大模型内容安全治理的核心挑战,如不安全内容生成、敏感隐私信息泄露等;并介绍知识编辑技术的基本概念。然后介绍一系列基于知识编辑的大模型内容安全治理策略和技术解决方案,以提高其在实际应用中的内容生成安全性,为构建安全可信的 AI 系统提供了重要的思路和参考。
嘉宾介绍 王梦如,浙江大学在读博士生,其导师是张宁豫教授。她的研究方向是大模型知识机理及安全防御问题,在ACL,COLING,ICLR等国际会议上发表了多篇高水平论文。目前,她致力于研究大模型存储、记忆及使用知识的底层机理,通过底层机理找到大模型潜在的风险,并借助知识编辑技术高效地构建安全防御保障。
田博中,浙江大学在读硕士生,其导师是张宁豫教授。他的研究主要围绕利用知识编辑缓解大模型的幻觉、隐私问题,并在 ACL,EMNLP 等顶级国际会议上发表了多篇高水平论文。目前,他致力于高效精准地擦除敏感知识,同时确保模型对其他重要知识的保留,从而在保护数据隐私的前提下,提高模型的可靠性和安全性,为大模型的安全应用提供保障。
一键预约直播
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧