面向长周期任务的适配智能学习体上下文管理

5
分类学习资料
作者Lu Yi等
来源跳转
发表时间

内容

论文提出了 AdaCoM(Adaptive Context Management,自适应上下文管理),一个通过外部LLM为冻结的Agent学习上下文管理策略的框架,无需训练Agent本身。

核心问题

LLM Agent在长程任务(如网页搜索、深度研究)中面临长上下文退化问题:累积的工具结果和中间推理会淹没关键证据、放大位置偏见,导致决策不可靠。现有方法通常要求Agent自身管理上下文或进行训练,这不适用于闭源Agent,且忽略了不同Agent需要不同策略的事实。

AdaCoM 框架

两大设计原则:

  • 架构解耦:由外部小型LLM(如Qwen3-4B-Instruct)管理上下文,底层Agent保持不变
  • 操作级灵活性:不预设固定操作(如摘要),允许自由修改、删除、合并任意消息

工作流程:

  1. Agent基于管理后的上下文生成动作
  2. 环境返回观察结果
  3. 外部Manager采样结构化修改动作(JSON格式,含目标ID、角色、理由、新内容)
  4. 应用修改得到下一轮管理上下文

训练方法:

  • SFT预热学习输出格式
  • GRPO强化学习优化,使用两级优势估计结合结果奖励和过程奖励(token惩罚、冗余动作惩罚、格式惩罚、任务特定中间信号)

主要实验结果

基准测试效果
BrowseComp-Plus(网页搜索)平均相对提升 39.0%,Kimi提升95.0%
MCP-Bench-Wiki(深度研究)Kimi提升9.0%,DeepSeek提升22.3%

关键发现:

  • 无训练的Manager反而损害性能,说明学习必要
  • 固定摘要策略(SumCoM)对部分Agent有效但对GLM造成损害
  • Agent自管理(MemAct/SumAgent)不稳定,常需Agent侧训练

核心洞察:保真度-可靠性权衡(Fidelity–Reliability Trade-off)

Agent能力(vanilla ReAct性能)管理策略上下文长度
强Agent(GLM、Qwen)分层管理:允许上下文增长,偶尔批量压缩较长(5K-7K tokens)
弱Agent(DeepSeek、Kimi)积极蒸馏:几乎每轮压缩,保持精简较短(2K-3K tokens)

强Agent能利用更多原始上下文保真度;弱Agent需要更激进的压缩以维持可靠推理。

跨Agent迁移性

  • 32对源-目标组合中,27对实现正向提升,平均相对改善25.0%
  • 能力相近的Agent间迁移最有效:高基线Agent共享高保真策略,低基线Agent共享激进压缩策略
  • 例外情况存在:风格兼容性(如工作记忆组织方式)也影响迁移效果

实际部署建议

训练少量代表性Manager,在能力相似的Agent间复用,无需为每个Agent单独训练。

局限与未来方向

  • 评估限于知识密集型搜索任务,未覆盖代码Agent、具身智能等
  • 4B Manager容量有限,可能无法无损保留强Agent所需的高保真上下文
  • 每步额外推理增加开销;强Agent的分层策略提示可降低调用频率
  • 修改上下文会破坏KV缓存复用,未来可探索缓存感知的管理策略

评论

(0)
未配置登录方式
暂无评论