今天,我们发布了 GPT-5.4(在 ChatGPT 中以 GPT-5.4 Thinking 形式发布),以及 API 和 Codex。这是我们在专业工作中最强大且高效的尖端模型。我们还发布了 GPT-5.4 Pro,适用于 ChatGPT 和 API,供希望在复杂任务中获得最大性能的用户使用。
GPT-5.4 将我们在推理、编码和代理工作流方面的最新进展整合到一个尖端模型中。它结合了 GPT-5.3-Codex 的行业领先编码能力,同时改进了模型在工具、软件环境和涉及电子表格、演示文稿和文档的专业任务中的工作方式。其结果是,该模型能够准确、高效地完成复杂的实际工作——减少来回沟通,提供您所需的内容。
在 ChatGPT 中,GPT-5.4 Thinking 现在可以提供其思考过程的初步计划,因此您可以在其工作时 调整思路,最终输出将更符合您的需求,而无需额外的对话轮次。GPT-5.4 Thinking 还改进了 深度网络研究,特别是针对高度具体的查询,同时 更好地保持上下文,适用于需要更长思考过程的问题。这些改进共同意味着更高质量的答案,能够更快地到达,并保持与手头任务的相关性。
在 Codex 和 API 中,GPT-5.4 是我们发布的首个具有原生、最先进的 计算机使用能力 的通用模型,使代理能够在应用程序中操作计算机并执行复杂的工作流。它支持高达 100 万个 token 的上下文,使代理能够在长时间范围内规划、执行和验证任务。GPT-5.4 还通过 工具搜索 改进了模型在大型工具和连接器生态系统中的工作方式,帮助代理更高效地找到和使用正确的工具,而不会牺牲智能。最后,GPT-5.4 是我们迄今为止 最节省 token 的推理模型,与 GPT-5.2 相比,在解决问题时使用的 token 数量显著减少——这意味着 token 使用量减少和速度更快。
结合在一般推理、编码和专业知识工作方面的进步,GPT-5.4 在 ChatGPT、API 和 Codex 中实现了更可靠的代理、更快的开发者工作流和更高质量的输出。
| GPT-5.4 | GPT-5.3-Codex | GPT-5.2 | |
|---|---|---|---|
| GDPval (wins or ties) | 83.0% | 70.9% | 70.9% |
| SWE-Bench Pro (Public) | 57.7% | 56.8% | 55.6% |
| OSWorld-Verified | 75.0% | 74.0%* | 47.3% |
| Toolathlon | 54.6% | 51.9% | 46.3% |
| BrowseComp | 82.7% | 77.3% | 65.8% |