专栏名称: PaperWeekly
PaperWeekly是一个分享知识和交流学问的学术组织,关注的领域是自然语言处理的各个方向。我们热爱知识,分享知识,希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。
目录
相关文章推荐
51好读  ›  专栏  ›  PaperWeekly

AI Agent真的安全吗?南洋理工最新综述揭秘LLM Agent安全风险与防御策略

PaperWeekly  · 公众号  · 科研  · 2025-03-20 12:37

正文



概述

随着大型语言模型(LLMs)驱动的 Agent 和多 Agent 系统(MAS)的快速发展,Agent 的安全问题日益受到关注。然而,现有研究在系统性方面仍有提升空间。


为应对这一挑战,来自南洋理工大学、松鼠AI的研究团队近期发布了 TrustAgent Survey 。该研究并非旨在面面俱到地覆盖所有 Agent 安全研究领域,而是聚焦于凝练 Agent 安全的模块化体系架构。研究团队精选了近期具有代表性的文献,并尝试构建一份关于 Agent 安全的系统性参考。


论文标题:

A Survey on Trustworthy LLM Agents: Threats and Countermeasures

论文地址:

https://arxiv.org/abs/2503.09648

GitHub 主页:

https://github.com/Ymm-cll/TrustAgent



TrustAgent Survey 的价值

TrustAgent Survey 可能为研究者带来以下价值:


✅ 系统性地了解 Agent 安全的框架体系;


✅ 相对高效地掌握 Agent 安全领域的最新进展;


✅ 提供启发,促进未来在相关领域的深入研究工作。

▲ 图1. TrustAgent Survey 与现有 Surveys 的比较



核心贡献

3.1 系统性视角

TrustAgent Survey 从“模块化角度”出发,将 Agent 系统拆解为内部模块(Brain, Memory, Tool)和外部模块(User, Agent, Environment),梳理各模块面临的安全风险和现有应对策略。


通过深入研究和总结新出现的针对代理和多智能体系统的攻击、防御和评估方法,TrustAgent Survey 将可信 LLM 的概念扩展到可信 Agent 的新兴范式。

▲ 图2. TrustAgent Survey 分类法概述


TrustAgent Survey 中的分类法具有以下特点:


模块化 :严格根据代理的内部和外部组件对可信度问题进行分类,分为内在(大脑、记忆、工具)和外在(用户、其他代理、环境)两个方面。


技术性 :专注于可信代理的实现,从攻击、防御和评估三个方面对相关技术栈进行了全面的总结和展望。


多维性 :将 LLM 可信度的维度扩展到单代理和 MAS 的上下文中,具体分为安全性、隐私性、真实性、公平性和鲁棒性,并引用了所有这些维度的现有工作。

3.2 技术框架

TrustAgent Survey 严格根据代理的内部和外部组件对可信度问题进行分类,具体分为内在和外在两个方面:

3.2.1 内生安全

内在可信度关注 Agent 系统内部模块的可信度。在 TrustAgent Survey 的定义中,Agent 系统是一个具有类人认知的独立实体,由具有记忆的大脑和工具形式的行为组成。由于这些模块的功能和性质不同,由此产生的可信度问题也各不相同。

3.2.2 外生安全

外部可信度关注与 Agent 系统交互的外部模块的可信度。在运行过程中,Agent 不断与外部交互,以收集信息或执行决策等。TrustAgent Survey 将与外部模块的交互分为三类:Agent 与 Agent、Agent 与环境和 Agent 与用户。

3.3 精选文献

TrustAgent Survey 侧重于精选近期且具有代表性的 148 篇 Agent 安全研究,希望能帮助读者快速了解领域进展,把握研究脉络。

▲ 图3. TrustAgent Survey 的综合分类







请到「今天看啥」查看全文