GPT‑5.4 震撼登场

今天，我们发布了 GPT-5.4（在 ChatGPT 中以 GPT-5.4 Thinking 形式发布），以及 API 和 Codex。这是我们在专业工作中最强大且高效的尖端模型。我们还发布了 GPT-5.4 Pro，适用于 ChatGPT 和 API，供希望在复杂任务中获得最大性能的用户使用。

GPT-5.4 将我们在推理、编码和代理工作流方面的最新进展整合到一个尖端模型中。它结合了 GPT-5.3-Codex 的行业领先编码能力，同时改进了模型在工具、软件环境和涉及电子表格、演示文稿和文档的专业任务中的工作方式。其结果是，该模型能够准确、高效地完成复杂的实际工作——减少来回沟通，提供您所需的内容。

在 ChatGPT 中，GPT-5.4 Thinking 现在可以提供其思考过程的初步计划，因此您可以在其工作时 调整思路，最终输出将更符合您的需求，而无需额外的对话轮次。GPT-5.4 Thinking 还改进了 深度网络研究，特别是针对高度具体的查询，同时 更好地保持上下文，适用于需要更长思考过程的问题。这些改进共同意味着更高质量的答案，能够更快地到达，并保持与手头任务的相关性。

在 Codex 和 API 中，GPT-5.4 是我们发布的首个具有原生、最先进的 计算机使用能力 的通用模型，使代理能够在应用程序中操作计算机并执行复杂的工作流。它支持高达 100 万个 token 的上下文，使代理能够在长时间范围内规划、执行和验证任务。GPT-5.4 还通过 工具搜索 改进了模型在大型工具和连接器生态系统中的工作方式，帮助代理更高效地找到和使用正确的工具，而不会牺牲智能。最后，GPT-5.4 是我们迄今为止 最节省 token 的推理模型，与 GPT-5.2 相比，在解决问题时使用的 token 数量显著减少——这意味着 token 使用量减少和速度更快。

结合在一般推理、编码和专业知识工作方面的进步，GPT-5.4 在 ChatGPT、API 和 Codex 中实现了更可靠的代理、更快的开发者工作流和更高质量的输出。

性能对比

	GPT-5.4	GPT-5.3-Codex	GPT-5.2
GDPval (wins or ties)	83.0%	70.9%	70.9%
SWE-Bench Pro (Public)	57.7%	56.8%	55.6%
OSWorld-Verified	75.0%	74.0%*	47.3%
Toolathlon	54.6%	51.9%	46.3%
BrowseComp	82.7%	77.3%	65.8%

GPT‑5.4 震撼登场

内容

性能对比

评论

摘要