专栏名称: 算法爱好者
算法是程序员的内功!伯乐在线旗下账号「算法爱好者」专注分享算法相关文章、工具资源和算法题,帮程序员修炼内功。
目录
相关文章推荐
算法爱好者  ·  北大发现,有句话让 DeepSeek ... ·  10 小时前  
九章算法  ·  「九点热评」Meta新员工都是裁员刀下鬼! ·  2 天前  
九章算法  ·  狗家“悬浮人”,跳槽成功 ·  2 天前  
算法爱好者  ·  普通人如何抓住 DeepSeek ... ·  昨天  
算法爱好者  ·  突发!152 亿,百度终于把它收购了 ·  2 天前  
51好读  ›  专栏  ›  算法爱好者

北大发现,有句话让 DeepSeek 思考停不下来,我替大家试了一下,结果很舒服…

算法爱好者  · 公众号  · 算法  · 2025-02-28 21:30

正文

一句话“攻击”让大模型思考宕机 !北大团队揭秘 AI 推理模型的致命漏洞

只需输入一句看似普通的提问,就能让 DeepSeek 陷入无限思考的“电子死循环”。

北大团队最新研究发现,当前大模型推理机制存在致命漏洞,甚至可能引发针对 AI 的“DDoS 攻击”。


漏洞核心:当“思考链”失控时

研究团队发现,当输入如 “树中两条路径之间的距离” 等特殊构造的提示词时,DeepSeek-R1 及其蒸馏模型系列(如 DeepSeek-R1-Distill-Qwen-1.5B)会生成无限延长的思考链(Chain-of-Thought, CoT)。

这些模型在响应时 不会生成终止标记(如 <|endoftext|> ,而是持续重复逻辑片段,直至达到系统预设的 token 上限(通常为数万至数十万)。

攻击原理的致命性在于

1、 跨模型传播性 :同一恶意查询可在同系列蒸馏模型中触发相同漏洞,攻击成本极低。

2、 资源放大效应 :单个查询即可占满 GPU 算力。北大团队测试显示,在 NVIDIA 4090 显卡上,仅需少量恶意请求即可导致 GPU 资源 100% 占用。
GPU-Occupation

3、 隐蔽性 :攻击者仅需消耗极少网络资源即可发起攻击,与传统 DDoS 攻击相比成本骤降。


灾难级后果

当前,开源社区正广泛采用 DeepSeek 等模型构建应用。一旦该漏洞被恶意利用,可能引发连锁反应:

  • 模型服务瘫痪 :攻击者可通过海量“无限思考”请求挤占服务器资源,导致正常服务中断。

  • 云计算成本飙升 :按需付费的云平台将因资源超额消耗面临巨额账单。

  • 模型信任危机 :开发者可能因安全顾虑转向闭源模型,阻碍开源协作进程。

研究团队警告称,这一漏洞可能成为“压垮开源 LLM 的最后一根稻草”,尤其是对算力有限的中小企业和学术机构而言。



强化学习的“双刃剑”

北大团队将漏洞归因于 DeepSeek-R1 的 强化学习(RL)训练机制 。在稀疏奖励环境下,模型被鼓励通过“探索”复杂推理路径来优化性能,但这导致两个副作用:

  1. CoT 稳定性缺失 :模型缺乏对思考链长度和复杂度的有效控制,易陷入逻辑循环。

  2. 过度探索倾向 :面对非常规查询时,模型持续生成冗余推理步骤以寻求奖励信号。

实验表明,正常用户的查询通常触发简短 CoT(约 50-200 tokens),而恶意攻击可诱导生成超过 10 万 tokens 的无效推理,且重复率高达 73%。


如何防御呢?

1、短期应对方案:

  • 强制终止机制: 为 CoT 设置最大长度阈值(如 1000 tokens),中断异常推理。

  • 重复模式检测: 实时监控输出中的序列重复率,触发警报并终止进程。

2、长期根本性解决方案:

  • 稳定 CoT 生成算法: 在 RL 训练中引入动态复杂度惩罚项,平衡探索与效率。

  • 对抗性训练: 将“无限思考”样本纳入训练数据,提升模型抗干扰能力。

  • 安全蒸馏框架: 在模型蒸馏过程中嵌入漏洞检测模块,阻断缺陷传递。


GitHub 传送门:https://github.com/PKU-YuanGroup/Reasoning-Attack


实测

Max 我试了一些推理模型,包括 DeepSeek 官网以及第三方版的 DS,还有马斯克的 Grok 3。

(元宝版 DS 用了 287 秒)
(问小白版 DS 用了 7 分 44 秒)






请到「今天看啥」查看全文