专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
相关文章推荐
数据宝  ·  A股爆发!9股获资金大举抢筹 ·  12 小时前  
21世纪经济报道  ·  #华为新品发布会官宣#【华为首款,原生鸿蒙正 ... ·  昨天  
神嘛事儿  ·  我回答了 @诚诚2金玉 ... ·  2 天前  
数据宝  ·  深夜,A股重磅,多只热门股传出新消息 ·  3 天前  
51好读  ›  专栏  ›  专知

大语言模型越狱攻击: 模型、根因及其攻防演化

专知  · 公众号  ·  · 2025-02-17 11:00

正文

大语言模型在各种应用中表现突出, 被广泛应用, 成为打造新质生产力的重要引擎. 然而, 当 恶意使用者利用特定技巧绕过模型的对齐等安全保护机制时, 就可能导致越狱攻击, 生成违反模型使 用准则、道德或法律的内容, 引发伦理问题. 本文分析总结了越狱攻击的起源及其攻防演变过程, 首 先根据方法、对象、目标三要素提出了越狱攻击的定义和形式化模型; 从大语言模型的发展历程和对 安全性认知的变化两个角度, 分析了越狱攻击的发展历史, 将越狱攻击存在的根因总结为大语言模型 的服务属性与价值观的不匹配; 最后, 从攻防博弈的角度总结越狱攻防的演化过程, 探讨了越狱攻击 的新型威胁模式和防御方法发展方向。


专知便捷查看,访问下面网址或 点击最底端“阅读原文”







请到「今天看啥」查看全文