一种用于 Codex 的超快实时编码模型。
今天,我们发布了 GPT‑5.3‑Codex‑Spark 的研究预览版本,这是 GPT‑5.3‑Codex 的一个较小版本,也是我们第一个为实时编码设计的模型。Codex-Spark 标志着我们与 Cerebras 的合作的第一个里程碑,我们在一月份宣布了这一合作伙伴关系。Codex-Spark 优化了在超低延迟硬件上运行的性能,能够在保持高编码能力的同时每秒处理超过 1000 个令牌。
我们将 Codex-Spark 作为研究预览版本分享给 ChatGPT Pro 用户,以便开发人员可以在我们与 Cerebras 合作扩大数据中心容量、加强端到端用户体验并部署更大的前沿模型的同时开始进行早期实验。
我们的最新前沿模型在长时间运行任务中表现出色,可以在不需要干预的情况下独立工作数小时、数天或数周。Codex-Spark 是我们第一个专门为实时编码设计的模型,使得开发人员可以进行有针对性的编辑、重塑逻辑或完善接口,并立即看到结果。有了 Codex-Spark,Codex 现在支持长时间运行的雄心勃勃的任务和即时完成工作。我们希望从开发人员的使用中学习并在继续扩大访问权限的同时纳入反馈。
在发布时,Codex-Spark 具有 128k 上下文窗口,仅支持文本。在研究预览期间,Codex-Spark 将有自己的速率限制,使用情况不会计入标准速率限制。然而,当需求高时,您可能会看到有限的访问或临时排队,因为我们在用户之间平衡可靠性。
Codex-Spark 优化了交互式工作,其中延迟与智能同样重要。您可以与模型实时协作,中断或重定向它,并快速迭代以获得几乎瞬间的响应。由于它针对速度进行了优化,Codex-Spark 保持其默认工作风格轻量级:它进行最小的有针对性的编辑,并且不会自动运行测试,除非您要求它这样做。
Codex-Spark 是一个高度可用的小型模型,优化了快速推理。在 SWE-Bench Pro 和 Terminal-Bench 2.0 两个评估代理软件工程能力的基准测试中,GPT‑5.3‑Codex‑Spark 展示了强大的性能,同时以比 GPT‑5.3‑Codex 快得多的速度完成任务。
SWE-Bench Pro
预计持续时间是(1)输出生成时间(输出令牌 ÷ 采样速度)、(2)预填充时间(预填充令牌 ÷ 预填充速度)、(3)总工具执行时间和(4)总网络开销的总和。
Terminal-Bench 2.0
在我们训练 Codex-Spark 的过程中,很明显模型速度只是实时协作的一个部分——我们还需要在整个请求-响应管道中减少延迟。我们在我们的工具中实现了端到端的延迟改进,这将使所有模型受益。在内部,我们简化了从客户端到服务器和返回的响应流,重写了推理堆栈的关键部分,并重新设计了会话的初始化方式,以便第一个可见令牌出现得更快,Codex 在您迭代时保持响应。通过引入持久的 WebSocket 连接和在响应 API 内部的有针对性的优化,我们将每个客户端/服务器往返的开销减少了 80%,每个令牌的开销减少了 30%,令牌首次出现的时间减少了 50%。WebSocket 路径默认为 Codex-Spark 启用,并将很快成为所有模型的默认设置。
Codex-Spark 在 Cerebras 的 Wafer Scale Engine 3 上运行——一种专门为高速度推理设计的 AI 加速器,为 Codex 提供了延迟优先的服务层。我们与 Cerebras 合作将此低延迟路径添加到与我们其他模型相同的生产服务堆栈中,因此它可以在 Codex 中无缝工作,并为我们支持未来的模型做好准备。
“我们最兴奋的是与 OpenAI 和开发者社区合作,探索快速推理使可能实现的新交互模式、新用例和根本不同的模型体验。这个预览只是开始。”
— Sean Lie,Cerebras 的 CTO 和联合创始人
GPU 在我们的训练和推理管道中仍然是基础,并为广泛的使用提供了最具成本效益的令牌。Cerebras 通过在需要极低延迟的工作流中表现出色来补充这一基础,紧密了端到端循环,使 Codex 在您迭代时感觉更具响应性。GPU 和 Cerebras 可以结合用于单个工作负载,以达到最佳性能。
Codex-Spark 今天作为研究预览版本推出,适用于 ChatGPT Pro 用户的最新版本的 Codex 应用程序、CLI 和 VS Code 扩展。由于它运行在专用低延迟硬件上,因此使用情况受单独的速率限制的约束,这可能会根据研究预览期间的需求进行调整。此外,我们正在为一小组设计合作伙伴提供 Codex-Spark 的 API,以了解开发人员如何将 Codex-Spark 集成到他们的产品中。我们将在继续在实际工作负载下调整我们的集成的同时,扩大访问权限。
Codex-Spark 目前仅支持文本,具有 128k 上下文窗口,是一系列超快模型中的第一个。随着我们与开发者社区一起学习到快速模型在编码中闪耀的位置,我们将引入更多功能,包括更大的模型、更长的上下文长度和多模态输入。
Codex-Spark 包括与我们的主线模型相同的安全训练,包括网络相关训练。我们在标准部署流程中评估了 Codex-Spark,该流程包括网络和其他功能的基准评估,我们确定它不具有达到我们的准备框架网络安全或生物学高能力阈值的合理机会。
Codex-Spark 是实现具有两个互补模式的 Codex 的第一步:更长时间范围的推理和执行,以及实时协作以实现快速迭代。随着时间的推移,这两种模式将融合在一起——Codex 可以让您保持紧密的交互循环,同时将更长时间运行的工作委托给后台的子代理,或当您想要广度和速度时,将任务分散到多个模型中,因此您不需要提前选择单一模式。
随着模型变得更加强大,交互速度成为一个明显的瓶颈。超快推理紧密了这一循环,使 Codex 感觉更自然地使用,并扩展了任何将想法转化为可行软件的人所能实现的可能性。