专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
目录
相关文章推荐
黄建同学  ·  机器人+AI ... ·  4 天前  
爱可可-爱生活  ·  NeuralDEM ... ·  5 天前  
爱可可-爱生活  ·  【Awesome-World-Models: ... ·  6 天前  
51好读  ›  专栏  ›  爱可可-爱生活

本文提出了一种基于快速响应的LLM越狱防御新范式,通过“越狱扩增-20241117064706

爱可可-爱生活  · 微博  · AI  · 2024-11-17 06:47

正文

2024-11-17 06:47

本文提出了一种基于快速响应的LLM越狱防御新范式,通过“越狱扩增”技术和Guard Fine-tuning方法显著降低了攻击成功率,但同时也强调了及时识别、响应速度和威胁建模的重要性。
[CL]《Rapid Response: Mitigating LLM Jailbreaks with a Few Examples》A Peng, J Michael, H Sleight, E Perez... [Anthropic & New York University & MATS] (2024) 网页链接 #机器学习##人工智能##论文#