论文提出了 AdaCoM(Adaptive Context Management,自适应上下文管理),一个通过外部LLM为冻结的Agent学习上下文管理策略的框架,无需训练Agent本身。
核心问题
LLM Agent在长程任务(如网页搜索、深度研究)中面临长上下文退化问题:累积的工具结果和中间推理会淹没关键证据、放大位置偏见,导致决策不可靠。现有方法通常要求Agent自身管理上下文或进行训练,这不适用于闭源Agent,且忽略了不同Agent需要不同策略的事实。
AdaCoM 框架
两大设计原则:
- 架构解耦:由外部小型LLM(如Qwen3-4B-Instruct)管理上下文,底层Agent保持不变
- 操作级灵活性:不预设固定操作(如摘要),允许自由修改、删除、合并任意消息
工作流程:
- Agent基于管理后的上下文生成动作
- 环境返回观察结果
- 外部Manager采样结构化修改动作(JSON格式,含目标ID、角色、理由、新内容)
- 应用修改得到下一轮管理上下文
训练方法:
- SFT预热学习输出格式
- GRPO强化学习优化,使用两级优势估计结合结果奖励和过程奖励(token惩罚、冗余动作惩罚、格式惩罚、任务特定中间信号)
主要实验结果
| 基准测试 | 效果 |
|---|
| BrowseComp-Plus(网页搜索) | 平均相对提升 39.0%,Kimi提升95.0% |
| MCP-Bench-Wiki(深度研究) | Kimi提升9.0%,DeepSeek提升22.3% |
关键发现:
- 无训练的Manager反而损害性能,说明学习必要
- 固定摘要策略(SumCoM)对部分Agent有效但对GLM造成损害
- Agent自管理(MemAct/SumAgent)不稳定,常需Agent侧训练
核心洞察:保真度-可靠性权衡(Fidelity–Reliability Trade-off)
| Agent能力(vanilla ReAct性能) | 管理策略 | 上下文长度 |
|---|
| 强Agent(GLM、Qwen) | 分层管理:允许上下文增长,偶尔批量压缩 | 较长(5K-7K tokens) |
| 弱Agent(DeepSeek、Kimi) | 积极蒸馏:几乎每轮压缩,保持精简 | 较短(2K-3K tokens) |
强Agent能利用更多原始上下文保真度;弱Agent需要更激进的压缩以维持可靠推理。
跨Agent迁移性
- 32对源-目标组合中,27对实现正向提升,平均相对改善25.0%
- 能力相近的Agent间迁移最有效:高基线Agent共享高保真策略,低基线Agent共享激进压缩策略
- 例外情况存在:风格兼容性(如工作记忆组织方式)也影响迁移效果
实际部署建议
训练少量代表性Manager,在能力相似的Agent间复用,无需为每个Agent单独训练。
局限与未来方向
- 评估限于知识密集型搜索任务,未覆盖代码Agent、具身智能等
- 4B Manager容量有限,可能无法无损保留强Agent所需的高保真上下文
- 每步额外推理增加开销;强Agent的分层策略提示可降低调用频率
- 修改上下文会破坏KV缓存复用,未来可探索缓存感知的管理策略