今天,我们正式发布 GPT‑5.4 mini 与 nano,这是我们迄今为止能力最强的小型模型。它们将 GPT‑5.4 的诸多优势引入到更快速、更高效的模型中,专为高吞吐量工作负载而设计。
GPT‑5.4 mini 在代码编写、推理、多模态理解以及工具使用方面较 GPT‑5 mini 有显著提升,同时运行速度提高两倍以上。它在多项评估中也接近体量更大的 GPT‑5.4 模型的性能,包括 SWE-bench Pro 和 OSWorld-Verified 基准测试。
GPT‑5.4 mini 专为对延迟敏感的应用场景打造,在这类场景中,响应速度直接关系到产品体验:例如需要即时响应的代码助手、能快速完成辅助任务的子智能体、可捕捉并解析截图的计算机使用系统,以及能够实时推理图像的多模态应用。在这些设定下,最好的模型通常不是体量最大的那个,而是能够快速响应、可靠调用工具,并能在复杂专业任务中保持出色表现的模型。
GPT‑5.4 nano 是 GPT‑5.4 最轻量、最快速的版本,专为对速度和成本要求极高的任务而设计。它也是 GPT‑5 nano 的重大升级版本。我们推荐将其用于分类、数据提取、排序,以及处理简单辅助任务的子智能体。
| 评估 | GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high 1 ) |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.73% | 53.40% | 52.39% | 45.69% |
| Terminal-Bench 2.0 | 75.10% | 59.30% | 46.30% | 38.20% |
| Toolathlon | 54.63% | 40.43% | 35.49% | 26.85% |
| GPQA Diamond | 93.00% | 85.48% | 82.83% | 81.57% |
| OSWorld-Verified | 75.03% | 70.60% | - | 42% |
1 GPT‑5 mini 可用的最高 reasoning_effort 为 'high'。
以下是我们的客户在工作流中测试 GPT‑5.4 mini 与 nano 后的评价:
“GPT-5.4 mini 在同类模型中展现出了强劲的端到端性能。在我们的评估中,它在多项输出任务和引文召回 (citation recall) 上的表现超越了 Claude Haiku 4.5 或与其持平,且成本大幅降低。此外,它的端对端通过率 (pass rate) 高于体量更大的 GPT-5.4 模型,来源溯源 (source attribution) 能力也更强。”
— NAME, Hebbia 的某职务
GPT‑5.4 mini 在需要快速迭代的代码工作流中表现尤为出色。该模型能以极低的延迟处理定向编辑、代码库导航、前端生成以及调试循环。这使其非常适合那些追求更高速度、更低成本的代码任务。
在基准测试中,GPT‑5.4 mini 在同等延迟下的表现始终优于 GPT‑5‑mini,且在运行速度大幅提升的同时,其通过率 (pass rate) 接近 GPT‑5.4 的水平。在代码工作流中,它实现了性能与延迟之间的最优权衡。
SWE-Bench Pro (public) Accuracy vs Latency
SWE-Bench Pro (Public) Accuracy vs Cost
我们通过观察模型的生产环境行为并进行离线模拟来估算延迟。延迟估算涵盖了工具调用耗时(代码执行时间)、采样 Token 以及输入 Token。实际延迟可能会有显著差异,并取决于诸多我们的模拟中未涵盖的因素。推理强度已从 low 调整为 xhigh。
GPT‑5.4 mini 也非常适合那些结合了不同规格模型的系统。例如在 Codex 中,GPT‑5.4 这种体量较大的模型负责处理规划、协作和最终判定,同时将具体的子任务并行分配给 GPT‑5.4 mini 子智能体 — 例如搜索代码库、审阅大文件或处理辅助文档。如需了解子智能体在 Codex 中的运作方式,请参阅文档。
随着小型模型变得更快、更强大,这种模式的实用性也随之提升。开发者无需再用单一模型处理所有事务,而是可以构建一种组合系统:由大模型决定任务方向,小模型则进行大规模的快速执行。对于这种工作流,GPT‑5.4 mini 是我们迄今为止最强大的 mini 模型。
GPT‑5.4 mini 在多模态任务中表现同样强劲,特别是与“计算机使用”(computer use) 相关的任务。该模型能够快速解析复杂用户界面的截图,从而高效完成计算机操作任务。在 OSWorld-Verified 基准测试中,GPT‑5.4 mini 的表现接近 GPT‑5.4,同时大幅超越了 GPT‑5 mini。
OSWorld-Verified
GPT‑5.4 mini 现已在 API、Codex 及 ChatGPT 中上线。
在 API 中,GPT‑5.4 mini 支持文本与图像输入、工具使用、函数调用、网页搜索、文件搜索、计算机使用以及技能 (skill)。它具备 400K 上下文窗口,定价为每 100 万输入 Token 0.75 美元,每 100 万输出 Token 4.50 美元。
在 Codex 中,GPT‑5.4 mini 已在 Codex 应用、CLI(命令行界面)、IDE 扩展及网页端上线。它仅消耗 GPT‑5.4 配额的 30%,让开发者能在 Codex 中以约三分之一的成本快速处理简单的代码任务。此外,智能体也可以配置为默认使用 GPT‑5.4 mini,从而让那些处理低推理强度工作的子智能体在更经济的模型上运行。
在 ChatGPT 中,免费版与 Go 用户可以通过 “+” 菜单中的 “Thinking” 功能使用 GPT‑5.4 mini。对于所有其他用户,GPT‑5.4 mini 将作为 GPT‑5.4 Thinking 的速率限制备选方案。
GPT‑5.4 nano 仅在 API 中提供,定价为每 100 万输入 Token 0.20 美元,每 100 万输出 Token 1.25 美元。
| 评估 | GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high 1 ) |
|---|---|---|---|---|
| SWE-Bench Pro (public) | 57.73% | 53.40% | 52.39% | 45.69% |
| Terminal-Bench 2.0 | 75.10% | 59.30% | 46.30% | 38.20% |
| 评估 | GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high 1 ) |
|---|---|---|---|---|
| MCP Atlas | 67.20% | 51.50% | 47.60% | |
| Toolathlon | 54.63% | 40.43% | - | 26.85% |
| Tau2-Bench Telecom | 98.90% | 85.70% | 88.38% | 74.10% |
| 评估 | GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high 1 ) |
|---|---|---|---|---|
| GPQA Diamond | 93.00% | 85.48% | 82.83% | 81.57% |
| AIME 2025 (无工具) | -- | 91.25% | 98.33% | 90.83% |
| HLE(含工具) | 52.12% | 37.28% | 37.66% | 31.56% |
| HLE(无工具) | 39.76% | 25.48% | 24.26% | 18.32% |
| 评估 | GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high 1 ) |
|---|---|---|---|---|
| OSWorld-Verified | 75.03% | 70.60% | - | 42% |
| MMMUPro(使用 Python) | 81.45% | 77.69% | 69.48% | 74.10% |
| MMMUPro | 81.24% | 75.90% | 66.10% | 67.54% |
| OmniDocBench 1.5(无工具,reasoning_effort='none') “归一化编辑距离”(越低越好) | 0.109 | 0.1263 | 0.2419 | 0.1791 |
| 评估 | GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high 1 ) |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64k-128k(数据集修复后) | 86% | 41.62% | 44.18% | 35.11% |
| OpenAI MRCR v2 8-needle 128k-256k(数据集修复后) | 79.25% | 20.93% | 33.11% | 19.38% |
| Graphwalks bfs 优秀 良好 较差 |