专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

目录

相关文章推荐

研之成理 · 3D打印，Nature ... · 2 天前

实验万事屋 · 夏老师给你一对一课题指导，点亮你的学术之路~ · 2 天前

实验万事屋 · 我的课题是巨噬细胞极化，但JAK-STAT、 ... · 3 天前

弗雷赛斯 · 画科研机制图，我们599元封顶 · 6 天前

弗雷赛斯 · 最高影响因子51.27，价格却只有市场价1/ ... · 6 天前

51好读 › 专栏 › PaperWeekly

直播预告 | 浙江大学张宁豫课题组：基于知识编辑的大模型内容安全治理

PaperWeekly · 公众号 · 科研 · 2024-09-13 22:14

正文

AI安全说第3期

嘉宾在线解读✔️

在线实时Q&A✔️

直播主题

基于知识编辑的大模型内容安全治理

直播嘉宾

王梦如

浙江大学在读博士生

田博中

浙江大学在读硕士生

直播时间

2024年09月14日（周六）

10:00-11:00

观看方式

PaperWeekly视频号

PaperWeekly B站直播间

一键预约直播

▼

报告介绍

直播主题

基于知识编辑的大模型内容安全治理

大语言模型 (LLMs) 发展迅速，为多个领域带来了技术革命，但在实践应用中经常面临幻觉、安全和隐私等问题。即便经过安全对齐的大模型，也依然容易被强大的攻击手段绕过。

本次talk将探讨基于知识编辑的大模型内容安全治理方法。首先介绍大模型内容安全治理的核心挑战，如不安全内容生成、敏感隐私信息泄露等；并介绍知识编辑技术的基本概念。然后介绍一系列基于知识编辑的大模型内容安全治理策略和技术解决方案，以提高其在实际应用中的内容生成安全性，为构建安全可信的 AI 系统提供了重要的思路和参考。

嘉宾介绍

王梦如

浙江大学在读博士生

王梦如，浙江大学在读博士生，其导师是张宁豫教授。她的研究方向是大模型知识机理及安全防御问题，在ACL，COLING，ICLR等国际会议上发表了多篇高水平论文。目前，她致力于研究大模型存储、记忆及使用知识的底层机理，通过底层机理找到大模型潜在的风险，并借助知识编辑技术高效地构建安全防御保障。

田博中

浙江大学在读硕士生

田博中，浙江大学在读硕士生，其导师是张宁豫教授。他的研究主要围绕利用知识编辑缓解大模型的幻觉、隐私问题，并在 ACL，EMNLP 等顶级国际会议上发表了多篇高水平论文。目前，他致力于高效精准地擦除敏感知识，同时确保模型对其他重要知识的保留，从而在保护数据隐私的前提下，提高模型的可靠性和安全性，为大模型的安全应用提供保障。

技术交流群

扫码备注「LLM安全」

立刻加入技术交流群

一键预约直播

▼

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

推荐文章

研之成理 · 3D打印，Nature Nanotechnology！

2 天前

实验万事屋 · 夏老师给你一对一课题指导，点亮你的学术之路~

2 天前

实验万事屋 · 我的课题是巨噬细胞极化，但JAK-STAT、MAPK、NFκB这些信号通路，我都看不懂，这该咋办……

3 天前

弗雷赛斯 · 画科研机制图，我们599元封顶

6 天前

弗雷赛斯 · 最高影响因子51.27，价格却只有市场价1/2！弗雷赛斯“润色”将继续不忘初心！

6 天前

德慧智 · 什么原因让我们失去了世界民族前列的机遇——《德道经》是社会发展科学创造力的坚实基础

7 年前

小学生作文 · 哲理故事：稻草

7 年前

济宁拉呱 · 真疯狂！济宁高速路上一大货车倒车，竟是为了......

7 年前

生物探索 · 定期食用巧克力或能降低心脏病风险

7 年前

BiaNews · 顺丰菜鸟之争：开放与独裁，貌合与神离

7 年前

Sov5搜索 · 小百科 · 移动版

51好读 - 好文章就要读起来!