专栏名称: 专知

专知，为人工智能从业者服务，提供专业可信的人工智能知识与技术服务，让认知协作更快更好！

目录

相关文章推荐

神嘛事儿 · 虽然我个人是比较遵循传统的啊，但是朋友们说实 ... · 10 小时前

数据宝 · A股爆发！9股获资金大举抢筹 · 12 小时前

21世纪经济报道 · #华为新品发布会官宣#【华为首款，原生鸿蒙正 ... · 昨天

神嘛事儿 · 我回答了 @诚诚2金玉 ... · 2 天前

数据宝 · 深夜，A股重磅，多只热门股传出新消息 · 3 天前

51好读 › 专栏 › 专知

大语言模型越狱攻击: 模型、根因及其攻防演化

专知 · 公众号 · · 2025-02-17 11:00

正文

大语言模型在各种应用中表现突出, 被广泛应用, 成为打造新质生产力的重要引擎. 然而, 当恶意使用者利用特定技巧绕过模型的对齐等安全保护机制时, 就可能导致越狱攻击, 生成违反模型使用准则、道德或法律的内容, 引发伦理问题. 本文分析总结了越狱攻击的起源及其攻防演变过程, 首先根据方法、对象、目标三要素提出了越狱攻击的定义和形式化模型; 从大语言模型的发展历程和对安全性认知的变化两个角度, 分析了越狱攻击的发展历史, 将越狱攻击存在的根因总结为大语言模型的服务属性与价值观的不匹配; 最后, 从攻防博弈的角度总结越狱攻防的演化过程, 探讨了越狱攻击的新型威胁模式和防御方法发展方向。

专知便捷查看，访问下面网址或 点击最底端“阅读原文”

请到「今天看啥」查看全文

推荐文章

神嘛事儿 · 虽然我个人是比较遵循传统的啊，但是朋友们说实话我们有很多传统是以-20250315001032

10 小时前

数据宝 · A股爆发！9股获资金大举抢筹

12 小时前

21世纪经济报道 · #华为新品发布会官宣#【华为首款，原生鸿蒙正式版手机下周上线】从-20250313121601

昨天

神嘛事儿 · 我回答了 @诚诚2金玉的问题，大家快来订阅围观~ 微博问答 -20250312231100

2 天前

数据宝 · 深夜，A股重磅，多只热门股传出新消息

3 天前

半导体行业观察 · 抱歉，特朗普总统，iPhone回美国造真是个问题

8 年前

冲蒌老伍 · 台山话厄个靓女做老婆，掂过碌蔗

8 年前

虎嗅APP · 从今日头条到微博、UC，细数知乎和分答的挑战者们

8 年前

参考消息 · 读报 | 《参考消息》今日看点：中俄高超音速导弹令美国惶恐；日本皇太子德仁称已做好继位准备……

8 年前

环球时报 · 北京人已经不吃香了，以后一定要认得这个口音！

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!