专栏名称: PaperWeekly
PaperWeekly是一个分享知识和交流学问的学术组织,关注的领域是自然语言处理的各个方向。我们热爱知识,分享知识,希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。
目录
相关文章推荐
研之成理  ·  3D打印,Nature ... ·  2 天前  
实验万事屋  ·  我的课题是巨噬细胞极化,但JAK-STAT、 ... ·  3 天前  
弗雷赛斯  ·  画科研机制图,我们599元封顶 ·  6 天前  
弗雷赛斯  ·  最高影响因子51.27,价格却只有市场价1/ ... ·  6 天前  
51好读  ›  专栏  ›  PaperWeekly

直播预告 | 浙江大学张宁豫课题组:基于知识编辑的大模型内容安全治理

PaperWeekly  · 公众号  · 科研  · 2024-09-13 22:14

正文





 AI安全说 第3期 


嘉宾在线解读✔️

在线实时Q&A✔️


 直播主题 


基于知识编辑的大模型内容安全治理

 直播嘉宾 


王梦如
浙江大学在读博士生


田博中
浙江大学在读硕士生

 直播时间 


2024年09月14日(周六)
10:00-11:00

 观看方式 


PaperWeekly视频号
PaperWeekly B站直播间


一键预约直播



 报告介绍 


直播主题

基于知识编辑的大模型内容安全治理

大语言模型 (LLMs) 发展迅速,为多个领域带来了技术革命,但在实践应用中经常面临幻觉、安全和隐私等问题。即便经过安全对齐的大模型,也依然容易被强大的攻击手段绕过。 


本次talk将探讨基于知识编辑的大模型内容安全治理方法。首先介绍大模型内容安全治理的核心挑战,如不安全内容生成、敏感隐私信息泄露等;并介绍知识编辑技术的基本概念。然后介绍一系列基于知识编辑的大模型内容安全治理策略和技术解决方案,以提高其在实际应用中的内容生成安全性,为构建安全可信的 AI 系统提供了重要的思路和参考。


 嘉宾介绍 

王梦如

浙江大学在读博士生

王梦如,浙江大学在读博士生,其导师是张宁豫教授。她的研究方向是大模型知识机理及安全防御问题,在ACL,COLING,ICLR等国际会议上发表了多篇高水平论文。目前,她致力于研究大模型存储、记忆及使用知识的底层机理,通过底层机理找到大模型潜在的风险,并借助知识编辑技术高效地构建安全防御保障。


田博中

浙江大学在读硕士生

田博中,浙江大学在读硕士生,其导师是张宁豫教授。他的研究主要围绕利用知识编辑缓解大模型的幻觉、隐私问题,并在 ACL,EMNLP 等顶级国际会议上发表了多篇高水平论文。目前,他致力于高效精准地擦除敏感知识,同时确保模型对其他重要知识的保留,从而在保护数据隐私的前提下,提高模型的可靠性和安全性,为大模型的安全应用提供保障。





技术交流群

扫码备注「LLM安全」

立刻加入技术交流群


一键预约直播


🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·