隆重推出 Claude Opus 4.7

7
分类业界资讯
作者Anthropic
来源跳转
发表时间

内容

我们的最新模型 Claude Opus 4.7 现已全面开放使用。

Opus 4.7 在高级软件工程方面相比 Opus 4.6 实现了显著提升,尤其在最具挑战性的任务上表现突出。用户反馈称,他们现在可以自信地将最棘手的编码工作——这类任务以往需要密切监督——交给 Opus 4.7 处理。该模型能够严谨而一致地应对复杂、长时间运行的任务,精准执行指令,并在报告结果前主动验证自身输出。

此外,该模型的视觉能力也大幅提升:它能处理更高分辨率的图像。在执行专业任务时更具品味与创造力,可生成更高质量的界面、幻灯片和文档。尽管其整体能力不及我们最强的模型 Claude Mythos Preview,但在多个基准测试中,Opus 4.7 的表现均优于 Opus 4.6:

image

上周我们发布了 Project Glasswing,探讨了 AI 模型在网络安全领域的风险与机遇。我们承诺将限制 Claude Mythos Preview 的发布范围,并优先在能力较低的模型上测试新的网络安全防护措施。Opus 4.7 正是首个此类模型:其网络安全能力虽不及 Mythos Preview(事实上,在训练过程中我们曾尝试差异化削弱这些能力),但我们为其配备了自动检测并拦截涉及禁止或高风险网络安全用途请求的安全机制。通过真实环境部署这些防护措施所积累的经验,将帮助我们逐步实现最终目标——即广泛发布 Mythos 级别模型。

希望将 Opus 4.7 用于合法网络安全目的(如漏洞研究、渗透测试和红队演练)的安全专业人员,欢迎加入我们全新的网络安全验证计划

Opus 4.7 现已在所有 Claude 产品以及我们的 API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 平台上线。价格与 Opus 4.6 保持一致:每百万输入 token 收费 5 美元,每百万输出 token 收费 25 美元。开发者可通过 Claude API 使用 claude-opus-4-7

对 Claude Opus 4.7 的测试反馈

以下是我们在 Opus 4.7 早期测试中的一些亮点和说明:

  • 指令遵循:Opus 4.7 在遵循指令方面明显更优。有趣的是,这意味着为早期模型编写的提示词现在有时会产生意外结果:此前模型对指令的理解较为宽松或完全跳过部分内容,而 Opus 4.7 则会严格按字面意思执行。用户应相应调整提示词和 harness。
  • 增强的多模态支持:Opus 4.7 对高分辨率图像的视觉处理能力更强:可接受最长边达 2,576 像素的图像(约 375 万像素),是前代 Claude 模型的三倍多。这为依赖精细视觉细节的多模态应用开辟了广阔空间:计算机使用代理读取密集截图、从复杂图表中提取数据,以及需要像素级参考的工作。¹
  • 实际工作表现:除财务代理评估的顶尖成绩外(见上表),我们的内部测试显示 Opus 4.7 作为财务分析师比 Opus 4.6 更有效,能产出严谨分析和模型、制作更专业的演示文稿,并在任务间实现更紧密集成。Opus 4.7 在第三方评估 GDPval-AA 中也处于领先地位,该评估衡量金融、法律等领域的经济价值知识工作。
  • 记忆能力:Opus 4.7 更善于使用基于文件系统的内存。它能记住长时间、多会话工作中的重要笔记,并用这些笔记开启新任务,从而减少前置上下文需求。

下图展示了我们在发布前测试中更多跨领域的评估结果:

安全性与对齐性

总体而言,Opus 4.7 的安全性与 Opus 4.6 相似:我们的评估显示其欺骗、谄媚和协助滥用的不良行为发生率较低。在某些指标上,如诚实性和抵御恶意“提示注入”攻击的能力,Opus 4.7 相比 Opus 4.6 有所改进;在其他方面(如其倾向于提供过于详细的管制物质危害缓解建议),Opus 4.7 则略有减弱。我们对模型的对齐性评估结论为“总体良好对齐且值得信赖,但行为尚未完全理想”。请注意,Mythos Preview 仍是我们评估中最佳对齐的模型。我们的安全评估详见 Claude Opus 4.7 System Card

image 来自我们自动化行为审计的整体不对齐行为评分。在此评估中,Opus 4.7 较 Opus 4.6 和 Sonnet 4.6 略有改进,但 Mythos Preview 仍显示出最低的不对齐行为率。

今日同步发布

除 Claude Opus 4.7 外,我们还推出以下更新:

  • 更精细的努力控制:Opus 4.7 引入新的 xhigh(“极高”)努力等级,位于 high 和 max 之间,让用户在困难问题上更精细地权衡推理深度与延迟。在 Claude Code 中,我们将所有计划的默认努力等级提升至 xhigh。测试 Opus 4.7 的编码和代理用例时,建议从 high 或 xhigh 开始。
  • 在 Claude 平台(API)上:除支持更高分辨率图像外,我们还公开发布任务预算功能 beta 版,让开发者能引导 Claude 的 token 消耗,以便在长时间运行中优先处理工作。
  • 在 Claude Code 中:新增 /ultrareview 斜杠命令 可创建专用审查会话,逐行检查变更并标记细心审查者会发现的所有 bug 和设计问题。我们为 Pro 和 Max 版 Claude Code 用户提供三次免费 ultrareview 试用机会。此外,我们已将自动模式扩展至 Max 用户。自动模式是一种新型权限选项,Claude 可代表您做决定,这意味着您可运行更长时间任务,中断更少——且风险低于您选择跳过所有权限的情况。

从 Opus 4.6 迁移至 Opus 4.7

Opus 4.7 是对 Opus 4.6 的直接升级,但有两点值得注意,因为它们会影响 token 消耗。首先,Opus 4.7 使用了更新的分词器,改善了文本处理方式。代价是相同输入可能映射到更多 token——根据内容类型约为 1.0–1.35 倍。其次,Opus 4.7 在高努力等级下思考更深入,尤其在代理设置的后半段。这提升了其在难题上的可靠性,但也意味着它会产生更多输出 token。

用户可通过多种方式控制 token 消耗:使用 effort 参数、调整任务预算,或提示模型更简洁表达。在我们的测试中,净效应是积极的——所有努力等级下的 token 消耗在内部分类评估中均有改善(如下所示),但我们建议在真实流量中测量差异。我们撰写了迁移指南,提供更详细的 Opus 4.6 到 Opus 4.7 升级建议。

image 在内部分类评估中,各努力等级下 token 消耗对应的分数。此评估中模型仅凭单一用户提示自主工作,结果可能不能代表交互式编码中的 token 消耗情况。有关调整努力等级的更多信息,请参见迁移指南

脚注

1 这是模型级变更而非 API 参数,因此用户发送给 Claude 的图像将被直接以更高保真度处理。由于高分辨率图像消耗更多 token,不依赖额外细节的用户可在发送前对图像降采样。

  • 图表和表格中与 GPT-5.4 和 Gemini 3.1 Pro 的比较,均采用通过 API 可获取的最佳报告版本模型。
  • MCP-Atlas:Opus 4.6 分数已根据 Scale AI 修订的评分方法更新。
  • SWE-bench Verified、Pro 和多语言版:我们的记忆筛查会标记这些 SWE-bench 评估中的一组问题。排除任何显示记忆迹象的问题后,Opus 4.7 相比 Opus 4.6 的改进幅度依然成立。
  • Terminal-Bench 2.0:我们使用 Terminus-2 框架并禁用思考功能。所有实验采用 1× 保证/3× 上限资源分配,每项任务平均五次尝试。
  • CyberGym:Opus 4.6 分数已从最初报告的 66.6 更新至 73.8,因为我们更新了框架参数以更好地激发网络安全能力。
  • SWE-bench 多模态:我们对 Opus 4.7 和 Opus 4.6 均使用内部实现。分数与公开排行榜分数不可直接比较。

评论

(0)
未配置登录方式
暂无评论