专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
目录
相关文章推荐
爱可可-爱生活  ·  通过因果建模的视角,提出使用 ... ·  2 天前  
爱可可-爱生活  ·  【HelloBench:一个开源的基准测试工 ... ·  2 天前  
爱可可-爱生活  ·  【RoRF路由森林:一个基于随机森林的模型路 ... ·  3 天前  
爱可可-爱生活  ·  提出LLaMA-Omni模型架构,使用语音编 ... ·  6 天前  
51好读  ›  专栏  ›  爱可可-爱生活

通过让语言模型学会生成特殊的[RESET]符号来撤销之前的不安全-20240925052857

爱可可-爱生活  · 微博  · AI  · 2024-09-25 05:28

正文

2024-09-25 05:28

通过让语言模型学会生成特殊的[RESET]符号来撤销之前的不安全生成,然后重新生成,来有效提高了多个模型的安全性,同时保持有用性。
[LG]《Backtracking Improves Generation Safety》Y Zhang, J Chi, H Nguyen, K Upasani... [Meta & CMU] (2024) 网页链接 #机器学习##人工智能##论文#