测试智能体技能在实际场景中的效果

使用kimi总结关键内容，原论文点击上方来源链接。

研究背景与问题

技能（Skills） 已成为扩展 LLM Agent 能力的重要机制——这些是可重用的、领域特定的知识工件，编码了 API 使用模式、编程约定和最佳实践。虽然 Skills 被广泛采用（如 Claude Code、Codex 等平台），但现有基准测试（如 SKILLSBENCH）存在过度理想化的问题：

直接提供手工制作的、针对特定任务的技能
技能被直接放入 Agent 上下文中，无需检索
这忽略了真实场景中的三大挑战：技能选择、技能检索和技能适配

核心发现

研究者在包含 34,198 个真实技能 的集合上，通过渐进式真实场景评估发现：

1. 技能效益具有脆弱性 随着评估环境越来越真实，性能提升持续下降，在最困难场景下接近无技能基线：

Claude Opus 4.6: 从强制加载技能的 55.4% → 真实检索场景的 38.4%（无技能基线为 35.4%）
Kimi K2.5: 从 38.9% → 19.8%（低于无技能基线 21.8%）
Qwen3.5-397B: 从 31.6% → 19.7%（低于无技能基线 20.5%）

2. 两大瓶颈

选择困难: 即使有相关技能可用，Agent 也难以判断哪些值得加载（Claude 仅 49% 的轨迹加载了所有手工技能）
适配困难: 当没有专门为任务编写的技能时，Agent 难以从部分匹配的技能中提取有用信息

技能检索（Retrieval）

研究者比较了多种检索策略，发现：

Agentic 混合搜索（Agent 迭代构建查询并评估候选技能）显著优于直接搜索
语义相似性对技能检索至关重要
结合技能完整内容（而不仅是元数据）可提升检索质量

技能优化策略（Refinement）

为缩小性能差距，论文研究了两种优化策略：

策略	方式	效果
Query-agnostic	离线独立优化检索到的技能，不针对特定任务	效果有限，不能跨技能组合信息
Query-specific	先尝试解决任务，基于经验反思哪些技能有用，然后合成新技能	显著有效，在 9 个测试案例中 7 个提升性能

关键结果：在 SKILLSBENCH 上，Query-specific 优化将 Claude 的通过率从 40.1% 提升至 48.2%；在通用基准 TERMINAL-BENCH 2.0 上，检索+优化将 Claude 通过率从 57.7% 提升至 65.5%。

优化示例：在一个张量并行任务中，Agent 从两个部分相关的技能中分别提取知识，合成了一个包含完整解决方案的新技能（见图 3）。

结论

技能在真实场景中的效用比理想基准测试显示的要脆弱得多
Query-specific 优化是有效的补救措施，能够在初始技能质量合理时恢复大部分性能损失
技能加载率和使用率的提升表明，优化后的技能更符合 Agent 的实际需求