测试智能体技能在实际场景中的效果

5
分类学习资料
作者Yujian Liu等
来源跳转
发表时间

内容

使用kimi总结关键内容,原论文点击上方来源链接。

研究背景与问题

技能(Skills) 已成为扩展 LLM Agent 能力的重要机制——这些是可重用的、领域特定的知识工件,编码了 API 使用模式、编程约定和最佳实践。虽然 Skills 被广泛采用(如 Claude Code、Codex 等平台),但现有基准测试(如 SKILLSBENCH)存在过度理想化的问题:

  • 直接提供手工制作的、针对特定任务的技能
  • 技能被直接放入 Agent 上下文中,无需检索
  • 这忽略了真实场景中的三大挑战:技能选择技能检索技能适配

核心发现

研究者在包含 34,198 个真实技能 的集合上,通过渐进式真实场景评估发现:

1. 技能效益具有脆弱性 随着评估环境越来越真实,性能提升持续下降,在最困难场景下接近无技能基线:

  • Claude Opus 4.6: 从强制加载技能的 55.4% → 真实检索场景的 38.4%(无技能基线为 35.4%)
  • Kimi K2.5: 从 38.9% → 19.8%(低于无技能基线 21.8%)
  • Qwen3.5-397B: 从 31.6% → 19.7%(低于无技能基线 20.5%)

2. 两大瓶颈

  • 选择困难: 即使有相关技能可用,Agent 也难以判断哪些值得加载(Claude 仅 49% 的轨迹加载了所有手工技能)
  • 适配困难: 当没有专门为任务编写的技能时,Agent 难以从部分匹配的技能中提取有用信息

技能检索(Retrieval)

研究者比较了多种检索策略,发现:

  • Agentic 混合搜索(Agent 迭代构建查询并评估候选技能)显著优于直接搜索
  • 语义相似性对技能检索至关重要
  • 结合技能完整内容(而不仅是元数据)可提升检索质量

技能优化策略(Refinement)

为缩小性能差距,论文研究了两种优化策略:

策略方式效果
Query-agnostic离线独立优化检索到的技能,不针对特定任务效果有限,不能跨技能组合信息
Query-specific先尝试解决任务,基于经验反思哪些技能有用,然后合成新技能显著有效,在 9 个测试案例中 7 个提升性能

关键结果:在 SKILLSBENCH 上,Query-specific 优化将 Claude 的通过率从 40.1% 提升至 48.2%;在通用基准 TERMINAL-BENCH 2.0 上,检索+优化将 Claude 通过率从 57.7% 提升至 65.5%。

优化示例:在一个张量并行任务中,Agent 从两个部分相关的技能中分别提取知识,合成了一个包含完整解决方案的新技能(见图 3)。

结论

  • 技能在真实场景中的效用比理想基准测试显示的要脆弱得多
  • Query-specific 优化是有效的补救措施,能够在初始技能质量合理时恢复大部分性能损失
  • 技能加载率和使用率的提升表明,优化后的技能更符合 Agent 的实际需求

评论

(0)
未配置登录方式
暂无评论