专栏名称: PaperWeekly
PaperWeekly是一个分享知识和交流学问的学术组织,关注的领域是自然语言处理的各个方向。我们热爱知识,分享知识,希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。
目录
相关文章推荐
研之成理  ·  朱俊发教授课题组:Fe/CeO₂(111)模 ... ·  2 天前  
科研大匠  ·  211大学,同时揭牌3个学院! ·  5 天前  
51好读  ›  专栏  ›  PaperWeekly

直播预告 | 复旦大学知识工厂实验室:基于解码的语言模型水印研究

PaperWeekly  · 公众号  · 科研  · 2024-12-25 21:12

正文





 AI安全说 第12期 


嘉宾在线解读✔️

在线实时Q&A✔️


 直播主题 


基于解码的语言模型水印研究

 直播嘉宾 


符嘉义
复旦大学知识工厂实验室硕士生

 直播时间 


2024年12月28日(周六)
20:00-21:00

 观看方式 


PaperWeekly视频号
PaperWeekly B站直播间


一键预约直播




 报告介绍 


01

基于解码的语言模型水印研究

近年来,大语言模型的广泛应用极大地提升了工作效率,同时也引发了一些安全问题,例如利用大模型产 生一些虚假内容,在学术考试中的不诚信等等。 


本次报告将讨论当前最流行的大语言模型水印算法——基于红绿词表的算法,同时将这种算法放在一个通用的算法框架下研究,最终介绍笔者所提出的基于 Gumbel-Max trick 的水印算法。


本次报告期望从理论角度解释语言模型水印的可检测性如何得到保证。


 嘉宾介绍 

符嘉义

复旦大学知识工厂实验室硕士生

符嘉义,复旦大学知识工厂实验室硕士生,导师为肖仰华教授。研究方向是大模型安全,水印,以及对齐 技术,已有相关工作发表在 ACL。目前,他的研究兴趣主要集中于大语言模型的对齐技术,以及其中的 reward hacking 现象。




技术交流群

扫码备注「LLM安全」

立刻加入技术交流群


一键预约直播



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·