一句话“攻击”让大模型思考宕机
!北大团队揭秘 AI 推理模型的致命漏洞
只需输入一句看似普通的提问,就能让 DeepSeek 陷入无限思考的“电子死循环”。
北大团队最新研究发现,当前大模型推理机制存在致命漏洞,甚至可能引发针对 AI 的“DDoS 攻击”。
漏洞核心:当“思考链”失控时
研究团队发现,当输入如
“树中两条路径之间的距离”
等特殊构造的提示词时,DeepSeek-R1 及其蒸馏模型系列(如 DeepSeek-R1-Distill-Qwen-1.5B)会生成无限延长的思考链(Chain-of-Thought, CoT)。
这些模型在响应时
不会生成终止标记(如
<|endoftext|>
)
,而是持续重复逻辑片段,直至达到系统预设的 token 上限(通常为数万至数十万)。
攻击原理的致命性在于
:
1、
跨模型传播性
:同一恶意查询可在同系列蒸馏模型中触发相同漏洞,攻击成本极低。
2、
资源放大效应
:单个查询即可占满 GPU 算力。北大团队测试显示,在 NVIDIA 4090 显卡上,仅需少量恶意请求即可导致 GPU 资源 100% 占用。
3、
隐蔽性
:攻击者仅需消耗极少网络资源即可发起攻击,与传统 DDoS 攻击相比成本骤降。
灾难级后果
当前,开源社区正广泛采用 DeepSeek 等模型构建应用。一旦该漏洞被恶意利用,可能引发连锁反应:
-
模型服务瘫痪
:攻击者可通过海量“无限思考”请求挤占服务器资源,导致正常服务中断。
-
云计算成本飙升
:按需付费的云平台将因资源超额消耗面临巨额账单。
-
模型信任危机
:开发者可能因安全顾虑转向闭源模型,阻碍开源协作进程。
研究团队警告称,这一漏洞可能成为“压垮开源 LLM 的最后一根稻草”,尤其是对算力有限的中小企业和学术机构而言。
强化学习的“双刃剑”
北大团队将漏洞归因于 DeepSeek-R1 的
强化学习(RL)训练机制
。在稀疏奖励环境下,模型被鼓励通过“探索”复杂推理路径来优化性能,但这导致两个副作用:
-
CoT 稳定性缺失
:模型缺乏对思考链长度和复杂度的有效控制,易陷入逻辑循环。
-
过度探索倾向
:面对非常规查询时,模型持续生成冗余推理步骤以寻求奖励信号。
实验表明,正常用户的查询通常触发简短 CoT(约 50-200 tokens),而恶意攻击可诱导生成超过 10 万 tokens 的无效推理,且重复率高达 73%。
如何防御呢?
1、短期应对方案:
2、长期根本性解决方案:
-
稳定 CoT 生成算法:
在 RL 训练中引入动态复杂度惩罚项,平衡探索与效率。
-
对抗性训练:
将“无限思考”样本纳入训练数据,提升模型抗干扰能力。
-
安全蒸馏框架:
在模型蒸馏过程中嵌入漏洞检测模块,阻断缺陷传递。
GitHub 传送门:https://github.com/PKU-YuanGroup/Reasoning-Attack
实测
Max 我试了一些推理模型,包括 DeepSeek 官网以及第三方版的 DS,还有马斯克的 Grok 3。