主页信息流专栏赞助

信息流专栏

面向长周期任务的适配智能学习体上下文管理

36

分类：学习资料

作者：Lu Yi等

来源：跳转

发表时间：2026/6/4

AdaCoM GRPO LLM代理上下文管理长上下文

内容

论文提出了 AdaCoM（Adaptive Context Management，自适应上下文管理），一个通过外部LLM为冻结的Agent学习上下文管理策略的框架，无需训练Agent本身。

核心问题

LLM Agent在长程任务（如网页搜索、深度研究）中面临长上下文退化问题：累积的工具结果和中间推理会淹没关键证据、放大位置偏见，导致决策不可靠。现有方法通常要求Agent自身管理上下文或进行训练，这不适用于闭源Agent，且忽略了不同Agent需要不同策略的事实。

AdaCoM 框架

两大设计原则：

架构解耦：由外部小型LLM（如Qwen3-4B-Instruct）管理上下文，底层Agent保持不变
操作级灵活性：不预设固定操作（如摘要），允许自由修改、删除、合并任意消息

工作流程：

Agent基于管理后的上下文生成动作
环境返回观察结果
外部Manager采样结构化修改动作（JSON格式，含目标ID、角色、理由、新内容）
应用修改得到下一轮管理上下文

训练方法：

SFT预热学习输出格式
GRPO强化学习优化，使用两级优势估计结合结果奖励和过程奖励（token惩罚、冗余动作惩罚、格式惩罚、任务特定中间信号）

主要实验结果

基准测试	效果
BrowseComp-Plus（网页搜索）	平均相对提升 39.0%，Kimi提升95.0%
MCP-Bench-Wiki（深度研究）	Kimi提升9.0%，DeepSeek提升22.3%

关键发现：

无训练的Manager反而损害性能，说明学习必要
固定摘要策略（SumCoM）对部分Agent有效但对GLM造成损害
Agent自管理（MemAct/SumAgent）不稳定，常需Agent侧训练

核心洞察：保真度-可靠性权衡（Fidelity–Reliability Trade-off）

Agent能力（vanilla ReAct性能）	管理策略	上下文长度
强Agent（GLM、Qwen）	分层管理：允许上下文增长，偶尔批量压缩	较长（5K-7K tokens）
弱Agent（DeepSeek、Kimi）	积极蒸馏：几乎每轮压缩，保持精简	较短（2K-3K tokens）

强Agent能利用更多原始上下文保真度；弱Agent需要更激进的压缩以维持可靠推理。

跨Agent迁移性

32对源-目标组合中，27对实现正向提升，平均相对改善25.0%
能力相近的Agent间迁移最有效：高基线Agent共享高保真策略，低基线Agent共享激进压缩策略
例外情况存在：风格兼容性（如工作记忆组织方式）也影响迁移效果

实际部署建议

训练少量代表性Manager，在能力相似的Agent间复用，无需为每个Agent单独训练。

局限与未来方向

评估限于知识密集型搜索任务，未覆盖代码Agent、具身智能等
4B Manager容量有限，可能无法无损保留强Agent所需的高保真上下文
每步额外推理增加开销；强Agent的分层策略提示可降低调用频率
修改上下文会破坏KV缓存复用，未来可探索缓存感知的管理策略

评论

(0)

未配置登录方式

暂无评论