用kimi总结关键内容,原论文点击上方来源链接。
AI Agent Traps 指专门设计用于操纵、欺骗或利用AI智能体的对抗性内容。与传统网络安全威胁不同,这类陷阱不直接攻击模型本身,而是通过操纵信息环境(如网页、UI元素、文档),将恶意上下文注入智能体的输入流,迫使其执行未授权行为(如数据窃取、金融欺诈)。
| 陷阱类别 | 攻击目标 | 典型手法 |
|---|---|---|
| 1. 内容注入陷阱 (Content Injection) | 感知层 (Perception) | 利用机器解析与人类视觉的差异隐藏指令: • Web标准混淆:通过CSS/HTML注释、元数据标签嵌入隐藏文本 • 动态伪装:检测智能体访问后动态注入恶意载荷 • 隐写载荷:在图像/音频的二进制数据中编码指令 • 语法掩蔽:利用Markdown/LaTeX等格式语法隐藏命令 |
| 2. 语义操纵陷阱 (Semantic Manipulation) | 推理层 (Reasoning) | 不直接下命令,而是通过信息 framing 扭曲智能体的推理: • 偏见措辞与语境启动:使用情绪化、权威性的语言统计性偏置输出 • 监督规避:将恶意指令包装成"教育目的"或"红队测试"以绕过安全审查 • 人格超信 (Persona Hyperstition):散播关于模型身份的叙事,通过检索形成自我实现的反馈循环 |
| 3. 认知状态陷阱 (Cognitive State) | 记忆与学习 (Memory & Learning) | 污染智能体的长期知识库: • RAG知识投毒:在检索知识库中植入虚假陈述 • 潜在记忆投毒:向内部记忆存储注入看似无害、在特定未来语境下激活为恶意的数据 • 上下文学习陷阱:通过污染的少样本示例或奖励信号操控在线学习 |
| 4. 行为控制陷阱 (Behavioural Control) | 行动层 (Action) | 直接劫持智能体的行动能力: • 嵌入式越狱序列:在外部资源中植入可覆盖安全对齐的对抗性提示 • 数据窃取陷阱:诱导智能体定位、编码并外泄敏感数据至攻击者端点 • 子智能体生成陷阱:利用编排权限实例化受攻击者控制的子智能体 |
| 5. 系统性陷阱 (Systemic Traps) | 多智能体动态 (Multi-Agent Dynamics) | 利用智能体间的交互引发宏观级联故障: • 拥塞陷阱:广播信号使同质化智能体同步争夺有限资源 • 相互依赖级联:扰动脆弱均衡引发自我放大的连锁反应(如市场"闪崩") • 隐性共谋:嵌入环境信号作为相关装置,同步反竞争行为 • 组合片段陷阱:将载荷分割为语义无害的片段,在多智能体聚合时重组 • 女巫攻击:伪造多重身份不成比例地影响集体决策 |
| 6. 人机协同陷阱 (Human-in-the-Loop) | 人类监督者 (Human Overseer) | 利用认知偏见(如自动化偏见、审批疲劳)使人类成为被攻击目标,例如通过智能体传递社会工程学内容或诱导点击恶意链接 |
论文提出了四层防御策略:
这篇论文为理解AI智能体在开放环境中的安全威胁提供了基础性的分类学框架,强调了随着虚拟智能体经济的兴起,环境完整性安全将是该技术落地的核心前提。