通过 API 中的新模型推进语音智能发展

我们在API中推出了三款音频模型，为开发者解锁了一类全新的语音应用。借助这些模型，开发者可以构建更自然、响应更智能、并能实时采取行动的语音体验：

GPT‑Realtime‑2：我们的首款具备GPT‑5级别推理能力的语音模型，能够处理更复杂的请求，并自然地推动对话进行。
GPT‑Realtime‑Translate：一款全新的实时翻译模型，可将70多种输入语言的语音实时翻译成13种输出语言，同时保持与说话者同步。
GPT‑Realtime‑Whisper：一种新型流式语音转文本模型，可在说话者讲话时实时转录语音。

语音正成为人们使用软件最自然的方式之一。它让人们可以在开车时寻求帮助、在机场步行时更改旅行计划、以自己偏好的语言获得支持，或在不中断输入的情况下完成任务。

但构建有用的语音产品，仅靠快速的轮流对话或自然的语音音色是不够的。语音代理需要理解用户的意图、跟踪上下文、在请求变更时恢复、在对话持续期间调用工具，并以适合当下情境的方式作出回应。

我们此次推出的模型共同推动实时音频从简单的“呼叫-响应”模式，迈向真正能完成工作的语音界面：在对话展开过程中倾听、推理、翻译、转录并采取行动。

语音作为人与产品之间的界面

随着语音成为使用软件更自然的方式，我们看到开发者围绕语音AI中三种新兴模式进行构建：

语音到行动（Voice-to-action）：用户描述需求，系统对请求进行推理、调用工具并完成任务。例如，Zillow 正在构建一个助手，可倾听、推理并执行诸如“在我 BuyAbility 范围内找房，避开繁忙街道，并安排周六看房”的请求。
系统到语音（Systems-to-voice）：软件将上下文转化为实时口语指导。例如，旅行应用可主动告知旅客：“您的 inbound 航班延误了，但仍可赶上转机。我已找到新登机口，规划了航站楼内最快路线，您的行李预计仍可转运。”
语音到语音（Voice-to-voice）：AI 可帮助跨语言、任务或上下文变化的实时对话持续进行。例如，德国电信（Deutsche Telekom）正在构建语音支持体验，客户可用最舒适的语言说话，而模型则实时翻译对话。

图示三种语音AI工作流：语音到行动连接语音与代码开发、购物、车载及日程工具；系统到语音连接应用、日历、CRM 和支持仪表板与语音；语音到语音连接两个语音代理。

这些模式也可协同工作。Priceline 正致力于实现一个未来场景：旅客可通过语音管理整个行程——对话式搜索航班和酒店，处理因航班延误调整酒店预订或获取 TSA 排队实时更新等变更，并在抵达后实时翻译对话。

实时语音：帮助语音模型推理并采取行动

GPT‑Realtime‑2 专为实时语音交互设计，模型在推理请求、调用工具、处理纠正或中断的同时保持对话推进，并以适合当下情境的方式回应。

前置语（Preambles）：开发者可启用主回应前的简短短语，如“让我查一下”或“稍等，我正在核实”，让用户知道代理正在处理请求。
并行工具调用与工具透明性：模型可同时调用多个工具，并通过“正在查看您的日历”或“正在查询中”等短语让这些操作可听，帮助代理在完成任务时保持响应性。
更强的恢复行为：模型能更优雅地恢复，例如说“我现在遇到了一些问题”，而非静默失败或中断对话。
更长的上下文支持代理工作流：我们将上下文窗口从 32K 扩展至 128K，以支持更长、更连贯的会话和更复杂的任务流程。
更强的领域理解能力：模型能更好地保留专业术语、专有名词、医疗术语及其他在生产环境中重要的词汇。
更可控的语气与表达：模型能更好地调整语气——解决问题时语气沉稳，用户沮丧时表达共情，确认成功操作时语气积极。
可调节的推理强度：开发者现在可选择最小、低、中、高和极高（xhigh）推理级别，默认设为“低”，在简单交互中降低延迟，在复杂请求中启用更审慎的推理。

这些改进在贴近生产语音代理的音频评估中得以体现：GPT‑Realtime‑2（高）在 Big Bench Audio 的音频智能评测中比 GPT‑Realtime‑1.5 高出 15.2%。GPT‑Realtime‑2（极高）在 Audio MultiChallenge 的指令遵循评测中高出 13.8%，优于 GPT‑Realtime‑1.5，在实时对话中展现出更强的推理能力、上下文管理和控制力。

评测基准	指标
Big Bench Audio	智能性
Audio MultiChallenge	指令遵循

Big Bench Audio 评估支持音频输入的语言模型在挑战性推理任务中的表现。Audio MultiChallenge（新窗口打开）评估口语对话系统中的多轮对话智能，包括指令遵循、上下文整合、自一致性以及处理自然语音修正的能力。

GPT‑Realtime‑2 的出色表现体现在多种不同用例中：

用户

我正在考虑在通勤火车站旁开一家900平方英尺的独立咖啡店。周二至周四上午7点到10点人流量最大；周一、周五和下午时段则冷清得多。租金很高，但我很喜欢 cozy 座位、慢冲咖啡和本地糕点的理念。给我做一个战略性的“事前验尸”：如果一年后失败，最可能发生了什么？然后建议我在全面开店前应测试的最小可行版本。

🎧 音频

GPT-Realtime-2

转录文本
我们来压力测试这个想法，然后勾勒出你能运行的最小可行试点。

如果一年后失败，最可能的原因是经济模型从未匹配需求节奏。你租了昂贵的店面，概念却偏向慢节奏、长时间停留的饮品和舒适座位，但最强劲的客流却希望在狭窄的早晨时段快速、可靠地买到咖啡。慢冲咖啡和大量座位会限制 throughput 和翻台率，而周一、周五和下午的冷清时段则让你为无法创收的空间买单。再加上人力成本、宽菜单带来的浪费，以及建立足够非高峰业务的挑战，现金流就会悄然断裂。

最小测试版本是仅在高峰时段运营的极简菜单设置。可以是一个靠近车站的推车、 kiosk 或共享柜台，周二至周四上午7点到10点营业。提供批量冲泡咖啡，如果可行再加一种简单意式选项，以及来自本地合作伙伴的几种糕点。用它来衡量出餐速度、回头客和定价能力，再决定是否全面开店。

🎧 音频

GPT-Realtime-1.5

转录文本
如果店铺一年后失败，可能的原因包括高估了早晨通勤人群停留的意愿、在冷清时段未能产生足够收入，以及高固定成本（租金和人力）未被销售额抵消。也许这个概念未能引起“ grab and go ”通勤者的共鸣，或者下午时段始终未能起色，导致利润微薄。你可能也在营销方面遇到困难，或未能根据客流起伏调整 offerings，最终导致现金流问题。

要以更小规模测试概念，你可以先在车站附近的高峰早晨时段开设一个 pop-up 咖啡车或 kiosk，提供你的招牌慢冲咖啡和糕点。这能让你评估需求、优化菜单、建立本地客户群并测试定价，而无需承担大额租约。一旦看到稳定销售并了解客户行为，你就可以更有信心地规划更大的空间。

在早期测试中，企业使用 GPT‑Realtime‑2 构建语音代理，通过自然对话帮助客户和员工完成任务：

“GPT-Realtime-2 的突出之处在于它为复杂语音交互带来了智能性和工具调用的可靠性。在我们最严苛的对抗性基准测试中，经过提示优化后，通话成功率提升了26个百分点（95% vs 69%）。GPT-Realtime-2 在公平住房合规性方面也显著更稳健，这对我们的业务至关重要。正是代理能力与防护强度的结合，使其适用于 Zillow 的生产级语音应用。”

— Josh Weisberg，Zillow 高级副总裁兼AI负责人

实时翻译：构建实时多语言语音体验

GPT‑Realtime‑Translate 帮助开发者构建实时多语言语音体验，让每个人都能用自己偏好的语言说话，实时听到翻译后的对话并查看实时转录文本。它支持70多种输入语言和13种输出语言，适用于客户服务、跨境销售、教育、活动、媒体和面向全球受众的创作者平台。

对开发者而言，实时翻译需要在保持与说话者同步的同时保留语义，即使人们自然说话、切换上下文或使用地区口音及领域特定语言。例如，德国电信正在测试该模型用于多语言语音交互，更低的延迟和更强的流畅性可使跨语言对话感觉更自然。

在此视频中，Vimeo 展示了 GPT‑Realtime‑Translate 如何在产品教育视频播放时实时翻译，让全球客户无需等待单独制作的版本即可用自己偏好的语言听到更新。

“为印度构建语音AI意味着要处理多样的地区语音特征。在我们对印地语、泰米尔语和泰卢固语的评估中，GPT-Realtime-Translate 的词错误率比其他测试模型低12.5%，同时 fallback 率更低、任务完成率更高，且延迟足以维持自然对话。它为多语言语音AI树立了新标准。”

— Prateek Sachan，BolnaAI 联合创始人兼首席技术官

实时转录：构建低延迟转录体验

GPT‑Realtime‑Whisper 是一款专为低延迟语音转文本设计的新型流式转录模型。它在人们说话时实时转录音频，使实时产品感觉更快、更响应、更自然——从即时出现的字幕，到紧跟对话的会议纪要。

该模型让实时语音在业务工作流中即时可用。团队可为会议、课堂、广播和活动提供字幕；在对话进行中生成笔记和摘要；构建需要持续理解用户的语音代理；并为客服、医疗、销售、招聘等高容量口语交互创建更快的后续工作流。

安全性

Realtime API 集成了多层防护和缓解措施，以防止滥用。我们对 Realtime API 会话使用主动分类器，意味着若检测到违反有害内容准则的对话，可被中止。开发者也可使用 Agents SDK 轻松添加自己的额外安全护栏。

我们的使用政策禁止将服务输出重新用于垃圾邮件、欺骗或其他有害目的。开发者还必须明确告知终端用户他们正在与AI交互，除非上下文已显而易见。

Realtime API 完全支持面向欧盟应用的欧盟数据驻留，并受我们的企业隐私承诺保护。

定价与可用性

GPT‑Realtime‑2、GPT‑Realtime‑Translate 和 GPT‑Realtime‑Whisper 现已在 Realtime API 中提供。
GPT‑Realtime‑2 定价为：每百万音频输入 token 32 美元（缓存输入 token 为 0.40 美元），每百万音频输出 token 64 美元。
GPT‑Realtime‑Translate 定价为每分钟 0.034 美元。
GPT‑Realtime‑Whisper 定价为每分钟 0.017 美元。

开始使用

你可以在 Playground 中测试新的实时语音模型。

要开始构建，请在 Codex 中打开此提示，将 GPT‑Realtime‑2 添加到现有应用或新建一个。如果你还没有 Codex，请先下载 Codex 应用。