顾问策略:为智能体提升智能水平

2
分类业界资讯
作者Anthropic
来源跳转
发表时间

内容

希望更好平衡智能水平与成本的开发者群体,正逐渐采用我们称之为“顾问策略”的方法:将 Opus 作为顾问模型,与 Sonnet 或 Haiku 作为执行模型配对使用。这样既能让您的智能体接近 Opus 级别的推理能力,又能将成本控制在接近 Sonnet 的水平。

今天,我们正式在 Claude 平台上推出“顾问工具”,让您只需修改 API 调用中的一行代码,即可轻松实现顾问策略。

构建高性价比的智能体:顾问策略

image

在顾问策略中,Sonnet 或 Haiku 作为执行模型,负责端到端地处理任务,调用工具、读取结果并迭代求解。当执行模型遇到无法合理解决的问题时,会向作为顾问的 Opus 寻求指导。Opus 访问共享上下文后,返回解决方案计划、修正建议或终止信号,随后执行模型继续推进。在整个过程中,顾问模型不会直接调用工具或生成面向用户的输出,仅向执行模型提供决策指导。

这一设计颠覆了常见的子代理模式——在该模式中,更大的协调模型将任务分解并委派给较小的执行模型。而在顾问策略中,一个更小、更具成本效益的模型主导整个流程,无需任务分解、工作池或复杂的编排逻辑。只有在执行模型需要时,才会调用前沿级推理能力,其余时间则保持执行模型级别的低成本运行。

在我们的评估中,以 Opus 作为顾问的 Sonnet 在SWE-bench Multilingual基准测试中相比单独使用 Sonnet 提升了 2.7 个百分点,同时每个智能体任务的平均成本降低了 11.9%。

image

顾问工具

我们将顾问策略集成至 API,推出了顾问工具——这是一个服务端工具,当 Sonnet 和 Haiku 在执行特定任务时需要指导或帮助时,会自动调用该工具。

在我们的评估中,配备 Opus 顾问的 Sonnet 在 BrowseComp 2 和 Terminal-Bench 2.0 基准测试中均实现了性能提升,且每个任务的成本低于单独使用 Sonnet。

image

顾问策略同样适用于以 Haiku 作为执行模型的情况。在 BrowseComp 测试中,配备 Opus 顾问的 Haiku 得分达到 41.2%,是其单独运行得分(19.7%)的两倍以上。尽管其总分仍比单独运行的 Sonnet 低 29%,但每个任务的成本仅为后者的 15%(即节省 85%)。虽然顾问模型的加入会带来额外成本,但整体价格仍远低于单独使用 Sonnet,因此对于需要兼顾智能水平与成本控制的大规模任务而言,这是一个极具吸引力的选择。

image

在 Messages API 请求中声明 advisor_20260301,模型切换将在单次 /v1/messages 请求内完成——无需额外的往返通信或上下文管理。执行模型自行判断何时调用顾问工具。一旦触发,系统会将筛选后的上下文传递给顾问模型,获取规划方案后,执行模型继续执行,整个过程完全包含在同一请求中。

response = client.messages.create(
    model= "claude-sonnet-4-6" , # 执行模型
    tools=[
        {
            "type" : "advisor_20260301" ,
            "name" : "advisor" ,
            "model" : "claude-opus-4-6" ,
            "max_uses" : 3 ,
        },
        # ... 其他工具
    ],
    messages=[...]
)

# 顾问生成的 token 会在 usage 区块中单独报告

定价机制:顾问生成的 token 按顾问模型费率计费,执行模型生成的 token 按执行模型费率计费。由于顾问通常只生成简短的计划(一般为 400–700 个文本 token),而执行模型承担全部输出并以较低费率计费,因此总体成本显著低于全程使用顾问模型运行。

内置成本控制功能
通过设置 max_uses 参数可限制每次请求中顾问调用的最大次数。顾问产生的 token 会在 usage 区块中单独列出,便于您按层级追踪支出情况。

兼容现有工具体系:顾问工具只是 Messages API 请求中的另一个条目。您的智能体可在同一循环中搜索网络执行代码,并与 Opus 协同工作。

LogoLogo

“它在复杂任务上做出更优的架构决策,而在简单任务上则不增加任何开销。其规划与轨迹与之前相比堪称天壤之别。”

Eric Simmons,Bolt CEO 兼创始人

LogoLogo

“我们在智能体轮次、工具调用及整体表现方面均观察到明显改进——效果优于我们自己开发的规划工具。”

Kay Zhu,Genspark 联合创始人兼 CTO

LogoLogo

“在处理结构化文档提取任务时,顾问工具使 Haiku 4.5 能够根据复杂度动态调用 Opus 4.6 来扩展智能水平,以五分之一的价格实现前沿模型级别的质量表现。”

Anuraj Pandey,Eve Legal 机器学习工程师

开始使用

顾问工具现已在 Claude 平台原生 Beta 版本中开放使用。请按以下步骤开始体验:

  • 添加 Beta 功能请求头:anthropic-beta: advisor-tool-2026-03-01
  • 在 Messages API 请求中添加 advisor_20260301
  • 根据实际应用场景调整系统提示词

我们建议您对现有评估套件进行三组对比测试:单独使用 Sonnet、Sonnet 作为执行模型配合 Opus 顾问,以及单独使用 Opus。如需了解更多详情,请查阅官方文档

脚注说明

  • SWE-bench Multilingual:单独运行的 Sonnet 4.6 启用了自适应思考;而 Sonnet 4.6 + 顾问模式采用我们推荐的编程系统提示词,关闭了思考功能。两组实验均使用高强度模式,并配备 bash 命令和文件编辑工具。最终得分取九种语言下各 300 道题五次重复实验的平均值。所有实验均使用 Opus 4.6 作为顾问模型。
  • BrowseComp:所有实验均关闭思考功能,启用网页搜索和网络抓取工具。单独运行的 Sonnet 4.6 使用中等强度模式;Sonnet 4.6 + 顾问模式采用我们推荐的编程系统提示词;Haiku 4.5 + 顾问模式未使用该提示词。未启用程序化工具调用或上下文压缩。得分基于 1,266 道题目(每题仅尝试一次)计算得出。所有实验均使用 Opus 4.6 作为顾问模型。
  • Terminal-Bench 2.0:所有实验均关闭思考功能,使用 bash 命令和文件编辑工具。单独运行的 Sonnet 4.6 使用中等强度模式;两组顾问实验均未采用我们推荐的编程系统提示词。每项任务在隔离容器中以三倍资源分配运行,超时时间为 1x。最终得分取 89 项任务中每项五次尝试的平均值。所有实验均使用 Opus 4.6 作为顾问模型。

评论

(0)
未配置登录方式
暂无评论