GPT‑5.4 震撼登场

1
分类业界资讯
作者OpenAI
来源跳转
发表时间

内容

今天,我们发布了 GPT-5.4(在 ChatGPT 中以 GPT-5.4 Thinking 形式发布),以及 API 和 Codex。这是我们在专业工作中最强大且高效的尖端模型。我们还发布了 GPT-5.4 Pro,适用于 ChatGPT 和 API,供希望在复杂任务中获得最大性能的用户使用。

GPT-5.4 将我们在推理、编码和代理工作流方面的最新进展整合到一个尖端模型中。它结合了 GPT-5.3-Codex 的行业领先编码能力,同时改进了模型在工具、软件环境和涉及电子表格、演示文稿和文档的专业任务中的工作方式。其结果是,该模型能够准确、高效地完成复杂的实际工作——减少来回沟通,提供您所需的内容。

在 ChatGPT 中,GPT-5.4 Thinking 现在可以提供其思考过程的初步计划,因此您可以在其工作时 调整思路,最终输出将更符合您的需求,而无需额外的对话轮次。GPT-5.4 Thinking 还改进了 深度网络研究,特别是针对高度具体的查询,同时 更好地保持上下文,适用于需要更长思考过程的问题。这些改进共同意味着更高质量的答案,能够更快地到达,并保持与手头任务的相关性。

在 Codex 和 API 中,GPT-5.4 是我们发布的首个具有原生、最先进的 计算机使用能力 的通用模型,使代理能够在应用程序中操作计算机并执行复杂的工作流。它支持高达 100 万个 token 的上下文,使代理能够在长时间范围内规划、执行和验证任务。GPT-5.4 还通过 工具搜索 改进了模型在大型工具和连接器生态系统中的工作方式,帮助代理更高效地找到和使用正确的工具,而不会牺牲智能。最后,GPT-5.4 是我们迄今为止 最节省 token 的推理模型,与 GPT-5.2 相比,在解决问题时使用的 token 数量显著减少——这意味着 token 使用量减少和速度更快。

结合在一般推理、编码和专业知识工作方面的进步,GPT-5.4 在 ChatGPT、API 和 Codex 中实现了更可靠的代理、更快的开发者工作流和更高质量的输出。

性能对比

GPT-5.4GPT-5.3-CodexGPT-5.2
GDPval (wins or ties)83.0%70.9%70.9%
SWE-Bench Pro (Public)57.7%56.8%55.6%
OSWorld-Verified75.0%74.0%*47.3%
Toolathlon54.6%51.9%46.3%
BrowseComp82.7%77.3%65.8%

评论

(0)
未配置登录方式
暂无评论