我们的最新模型 Claude Opus 4.7 现已全面开放使用。
Opus 4.7 在高级软件工程方面相比 Opus 4.6 实现了显著提升,尤其在最具挑战性的任务上表现突出。用户反馈称,他们现在可以自信地将最棘手的编码工作——这类任务以往需要密切监督——交给 Opus 4.7 处理。该模型能够严谨而一致地应对复杂、长时间运行的任务,精准执行指令,并在报告结果前主动验证自身输出。
此外,该模型的视觉能力也大幅提升:它能处理更高分辨率的图像。在执行专业任务时更具品味与创造力,可生成更高质量的界面、幻灯片和文档。尽管其整体能力不及我们最强的模型 Claude Mythos Preview,但在多个基准测试中,Opus 4.7 的表现均优于 Opus 4.6:

上周我们发布了 Project Glasswing,探讨了 AI 模型在网络安全领域的风险与机遇。我们承诺将限制 Claude Mythos Preview 的发布范围,并优先在能力较低的模型上测试新的网络安全防护措施。Opus 4.7 正是首个此类模型:其网络安全能力虽不及 Mythos Preview(事实上,在训练过程中我们曾尝试差异化削弱这些能力),但我们为其配备了自动检测并拦截涉及禁止或高风险网络安全用途请求的安全机制。通过真实环境部署这些防护措施所积累的经验,将帮助我们逐步实现最终目标——即广泛发布 Mythos 级别模型。
希望将 Opus 4.7 用于合法网络安全目的(如漏洞研究、渗透测试和红队演练)的安全专业人员,欢迎加入我们全新的网络安全验证计划。
Opus 4.7 现已在所有 Claude 产品以及我们的 API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 平台上线。价格与 Opus 4.6 保持一致:每百万输入 token 收费 5 美元,每百万输出 token 收费 25 美元。开发者可通过 Claude API 使用 claude-opus-4-7。
以下是我们在 Opus 4.7 早期测试中的一些亮点和说明:
下图展示了我们在发布前测试中更多跨领域的评估结果:
总体而言,Opus 4.7 的安全性与 Opus 4.6 相似:我们的评估显示其欺骗、谄媚和协助滥用的不良行为发生率较低。在某些指标上,如诚实性和抵御恶意“提示注入”攻击的能力,Opus 4.7 相比 Opus 4.6 有所改进;在其他方面(如其倾向于提供过于详细的管制物质危害缓解建议),Opus 4.7 则略有减弱。我们对模型的对齐性评估结论为“总体良好对齐且值得信赖,但行为尚未完全理想”。请注意,Mythos Preview 仍是我们评估中最佳对齐的模型。我们的安全评估详见 Claude Opus 4.7 System Card。
来自我们自动化行为审计的整体不对齐行为评分。在此评估中,Opus 4.7 较 Opus 4.6 和 Sonnet 4.6 略有改进,但 Mythos Preview 仍显示出最低的不对齐行为率。
除 Claude Opus 4.7 外,我们还推出以下更新:
/ultrareview 斜杠命令 可创建专用审查会话,逐行检查变更并标记细心审查者会发现的所有 bug 和设计问题。我们为 Pro 和 Max 版 Claude Code 用户提供三次免费 ultrareview 试用机会。此外,我们已将自动模式扩展至 Max 用户。自动模式是一种新型权限选项,Claude 可代表您做决定,这意味着您可运行更长时间任务,中断更少——且风险低于您选择跳过所有权限的情况。Opus 4.7 是对 Opus 4.6 的直接升级,但有两点值得注意,因为它们会影响 token 消耗。首先,Opus 4.7 使用了更新的分词器,改善了文本处理方式。代价是相同输入可能映射到更多 token——根据内容类型约为 1.0–1.35 倍。其次,Opus 4.7 在高努力等级下思考更深入,尤其在代理设置的后半段。这提升了其在难题上的可靠性,但也意味着它会产生更多输出 token。
用户可通过多种方式控制 token 消耗:使用 effort 参数、调整任务预算,或提示模型更简洁表达。在我们的测试中,净效应是积极的——所有努力等级下的 token 消耗在内部分类评估中均有改善(如下所示),但我们建议在真实流量中测量差异。我们撰写了迁移指南,提供更详细的 Opus 4.6 到 Opus 4.7 升级建议。
在内部分类评估中,各努力等级下 token 消耗对应的分数。此评估中模型仅凭单一用户提示自主工作,结果可能不能代表交互式编码中的 token 消耗情况。有关调整努力等级的更多信息,请参见迁移指南。
1 这是模型级变更而非 API 参数,因此用户发送给 Claude 的图像将被直接以更高保真度处理。由于高分辨率图像消耗更多 token,不依赖额外细节的用户可在发送前对图像降采样。