使用kimi总结关键内容,原论文点击上方来源链接。
技能(Skills) 已成为扩展 LLM Agent 能力的重要机制——这些是可重用的、领域特定的知识工件,编码了 API 使用模式、编程约定和最佳实践。虽然 Skills 被广泛采用(如 Claude Code、Codex 等平台),但现有基准测试(如 SKILLSBENCH)存在过度理想化的问题:
研究者在包含 34,198 个真实技能 的集合上,通过渐进式真实场景评估发现:
1. 技能效益具有脆弱性 随着评估环境越来越真实,性能提升持续下降,在最困难场景下接近无技能基线:
2. 两大瓶颈
研究者比较了多种检索策略,发现:
为缩小性能差距,论文研究了两种优化策略:
| 策略 | 方式 | 效果 |
|---|---|---|
| Query-agnostic | 离线独立优化检索到的技能,不针对特定任务 | 效果有限,不能跨技能组合信息 |
| Query-specific | 先尝试解决任务,基于经验反思哪些技能有用,然后合成新技能 | 显著有效,在 9 个测试案例中 7 个提升性能 |
关键结果:在 SKILLSBENCH 上,Query-specific 优化将 Claude 的通过率从 40.1% 提升至 48.2%;在通用基准 TERMINAL-BENCH 2.0 上,检索+优化将 Claude 通过率从 57.7% 提升至 65.5%。
优化示例:在一个张量并行任务中,Agent 从两个部分相关的技能中分别提取知识,合成了一个包含完整解决方案的新技能(见图 3)。