推出 Sonnet 4.6

Claude Sonnet 4.6 是我们迄今为止最强大的 Sonnet 模型。它全面升级了模型在编码、计算机使用、长上下文推理、代理规划、知识工作和设计等方面的技能。Sonnet 4.6 还具备 1M 令牌上下文窗口（测试版）。

对于我们的免费和专业计划用户，Claude Sonnet 4.6 现已成为 claude.ai 和 Claude Cowork 的默认模型。定价与 Sonnet 4.5 保持一致，每百万令牌起价为 3 美元/15 美元。

Sonnet 4.6 为更多用户带来了显著改进的编码技能。在一致性、指令遵循等方面，早期访问的开发者更倾向于 Sonnet 4.6 而非其前身，甚至更倾向于我们 2025 年 11 月的智能模型 Claude Opus 4.5。

Sonnet 4.6 的性能此前需要 Opus 级模型才能实现，包括现实世界中具有经济价值的办公任务。该模型在计算机使用技能方面也比之前的 Sonnet 模型有了显著提高。

与每个新 Claude 模型一样，我们对 Sonnet 4.6 进行了广泛的安全评估，总体显示其安全性与或优于我们最近的其他 Claude 模型。我们的安全研究人员得出结论，Sonnet 4.6 具有“广泛的温暖、诚实、亲社会且有时有趣的性格，非常强的安全行为，没有高风险失调的重大担忧”。

计算机使用

几乎每个组织都有难以轻松自动化的软件：这些软件是在现代接口（如 API）出现之前构建的专有系统和工具。要使 AI 使用此类软件，用户以前必须构建定制的连接器。但一个可以像人类一样使用计算机的模型改变了这一现状。

2024 年 10 月，我们率先推出了通用计算机使用模型。当时，我们表示它“仍处于实验阶段 - 有时笨拙且容易出错”，但我们预计会迅速改进。OSWorld 是 AI 计算机使用的标准基准，它展示了我们的模型取得了多大的进步。它提出了数百项任务，涵盖真实软件（Chrome、LibreOffice、VS Code 等）在模拟计算机上运行。没有特殊的 API 或定制连接器；模型看到计算机并与之交互的方式与人类基本相同：点击（虚拟）鼠标，在（虚拟）键盘上打字。

在过去 16 个月中，我们的 Sonnet 模型在 OSWorld 上取得了稳步进展。改进也可以在基准测试之外看到：Sonnet 4.6 的早期用户在处理复杂电子表格或填写多步骤网页表单等任务中看到了人类级别的能力，然后在多个浏览器选项卡中整合所有内容。

该模型在使用计算机方面确实仍落后于最熟练的人类。但进步的速度却非常显著。这意味着计算机使用对于一系列工作任务更加有用，并且更强大的模型指日可待。

比较多个 Sonnet 模型在 OSWorld 基准测试中的得分 Claude Sonnet 4.5 之前的得分是在原始 OSWorld 上测量的，而 Sonnet 4.5 及以后的得分则使用 OSWorld-Verified。OSWorld-Verified（于 2025 年 7 月发布）是原始 OSWorld 基准测试的原位升级，更新了任务质量、评估评分和基础设施。

与此同时，计算机使用带来了风险：恶意行为者可以尝试通过在网站上隐藏指令来劫持模型，这种攻击被称为提示注入攻击。我们一直在努力提高模型对提示注入的抵抗力 - 我们的安全评估显示，Sonnet 4.6 在这方面比其前身 Sonnet 4.5 有了显著改进，与 Opus 4.6 相当。您可以在我们的 API 文档中了解更多关于缓解提示注入和其他安全问题的信息。

评估 Claude Sonnet 4.6

除了计算机使用之外，Claude Sonnet 4.6 在各个基准测试中都有所改进。它在接近 Opus 级智能的同时，价格更为实用，适用于更多任务。您可以在我们的系统卡中找到 Sonnet 4.6 的功能和安全相关行为的详细讨论；下面是总结和与其他近期模型的比较。

一张表格，列出了热门基准测试以及 Sonnet 4.6 与其他前沿模型相比的相对性能

在 Claude Code 中，我们的早期测试发现用户更喜欢 Sonnet 4.6 而不是 Sonnet 4.5，比例约为 70%。用户报告说，Sonnet 4.6 更有效地读取上下文，然后再修改代码，并且合并共享逻辑而不是复制它。这使得它在长时间使用时比早期模型更不容易让人感到沮丧。

用户甚至更喜欢 Sonnet 4.6 而不是 11 月份的前沿模型 Opus 4.5，比例为 59%。他们认为 Sonnet 4.6 过度工程和“懒惰”的倾向明显较少，并且在指令遵循方面明显更好。他们报告说，虚假成功声明、幻觉和多步骤任务的一致性更好。

Sonnet 4.6 的 1M 令牌上下文窗口足以容纳整个代码库、长合同或数十篇研究论文在一个请求中。更重要的是，Sonnet 4.6 有效地在所有这些上下文中进行推理。这可以使它在长期规划方面更好。我们在 Vending-Bench Arena 评估中清楚地看到了这一点，该评估测试模型如何随时间运行（模拟的）业务 - 其中包括竞争元素，不同的 AI 模型相互竞争以获得最大利润。

Sonnet 4.6 开发出了一种有趣的新策略：它在前十个模拟月份中大量投资于产能，支出远超竞争对手，然后急剧转向关注盈利能力。这一转向的时机帮助它远远领先于竞争对手。

Sonnet 4.6 在 Vending-Bench Arena 中通过早期投资产能，然后在最后冲刺阶段转向盈利能力，优于 Sonnet 4.5

早期客户也报告了广泛的改进，其中前端代码和财务分析尤为突出。客户独立描述 Sonnet 4.6 的视觉输出明显更精致，具有更好的布局、动画和设计感。客户还减少了迭代次数，以达到生产质量的结果。

产品更新

在 Claude 开发者平台上，Sonnet 4.6 支持自适应思考和扩展思考，以及上下文压缩（目前为测试版）。上下文压缩会自动总结较旧的上下文，以防对话接近限制，从而增加有效的上下文长度。

在我们的 API 中，Claude 的网络搜索和获取工具现在可以自动编写和执行代码，以过滤和处理搜索结果，只保留相关的内容，从而提高响应质量和 token 利用率。此外，代码执行、内存、程序化工具调用、工具搜索和工具使用示例现在已普遍可用。

Sonnet 4.6 在任何思考努力下都表现出强大的性能，即使在关闭扩展思考的情况下也是如此。在从 Sonnet 4.5 迁移时，我们建议您探索整个频谱，以根据您构建的内容找到速度和可靠性能的理想平衡。

我们发现 Opus 4.6 仍然是那些需要最深入推理的任务的最强选项，例如代码库重构、协调工作流程中的多个代理以及需要绝对正确的问题。

对于 Claude in Excel 用户，我们的插件现在支持 MCP 连接器，让 Claude 可以与您日常使用的其他工具（如 S&P Global、LSEG、Daloopa、PitchBook、Moody's 和 FactSet）协同工作。您可以在不离开 Excel 的情况下，让 Claude 拉取外部上下文。如果您已经在 Claude.ai 上设置了 MCP 连接器，这些连接将自动在 Excel 中生效。此功能在 Pro、Max、Team 和 Enterprise 计划中可用。

如何使用 Claude Sonnet 4.6

Claude Sonnet 4.6 现已在所有 Claude 计划、Claude Cowork、Claude Code、我们的 API 以及所有主要云平台上提供。我们还将免费层升级到 Sonnet 4.6，默认情况下，它包括文件创建、连接器、技能和压缩。

如果您是开发者，可以通过 Claude API 使用 claude-sonnet-4-6 快速入门。