英文通过 API 中的新模型推进语音智能发展
OpenAI在API推出三款实时语音模型:GPT‑Realtime‑2支持GPT‑5级语音推理、工具调用和128K上下文,GPT‑Realtime‑Translate支持70多种输入语言实时译成13种语言,GPT‑Realtime‑Whisper提供低延迟流式转写,面向开发者构建可听、可推理、可翻译、可转写并实时执行任务的语音应用,现已开放并公布定价。
浏览 业界资讯 分类下的公开文章、摘要与延伸阅读。肖恩子的知识花园
英文OpenAI在API推出三款实时语音模型:GPT‑Realtime‑2支持GPT‑5级语音推理、工具调用和128K上下文,GPT‑Realtime‑Translate支持70多种输入语言实时译成13种语言,GPT‑Realtime‑Whisper提供低延迟流式转写,面向开发者构建可听、可推理、可翻译、可转写并实时执行任务的语音应用,现已开放并公布定价。
中文OpenAI于2026年4月23日发布GPT-5.5,在不降低推理速度的前提下显著提升代理编码、计算机操作、知识工作和科研能力,编码与多步骤任务基准成绩领先,token效率更高,并已向ChatGPT、Codex及企业用户开放;同时强化网络与生化安全治理,其正从更强模型升级为可直接替代部分高强度专业工作的通用智能工具。
英文Chronicle是OpenAI为ChatGPT Pro macOS用户推出的可选研究预览功能,通过捕获屏幕内容生成Codex记忆以减少用户重复输入上下文,需授予屏幕录制和辅助功能权限,存在快速消耗速率限制、提示注入攻击风险及本地未加密存储敏感信息等问题,用户可随时暂停或禁用,屏幕截图本地临时保存6小时后删除,生成的记忆经服务器处理后以Markdown形式存于本地,截图本身不用于训练。
英文OpenAI发布Codex重大更新,使其从写代码扩展为可操作电脑、原生浏览网页、生成图像、接入90多个插件、支持PR审查与SSH远程开发的开发助手,并新增自动化、记忆和主动建议能力,可跨天持续处理重复任务,把开发全流程更集中到一个工作区,提升效率与连续性。
中文OpenAI更新Agents SDK,提供标准化代理基础设施,使代理可在受控沙盒中读写文件、运行命令、编辑代码并处理长期任务;新增可配置内存、沙盒感知编排、文件系统工具和原生沙盒执行,支持多云与环境可移植;开发者能更安全地将代理从原型扩展到生产,并提升持久运行与弹性扩展能力。
英文OpenAI扩大可信网络安全访问计划,向经验证的个人和团队开放更高权限,并推出为防御场景微调的GPT‑5.4‑Cyber,在加强身份验证和分级管控下提升漏洞发现、修复和逆向分析能力;其结论是让防御能力随模型能力同步扩张,广泛赋能合法防御者,同时压缩滥用风险。
英文OpenAI收购科技媒体平台TBPN,将其纳入战略部门,以扩大围绕AI的全球讨论与传播能力;TBPN保留节目运营、选题和嘉宾安排的编辑独立性,同时为OpenAI提供内容、传播和营销能力,目标是更高效地推动公众理解AI及其影响。
英文Codex支持按需并行生成子代理处理复杂任务,并汇总结果输出,用户还可为不同任务自定义代理的模型配置与指令;该能力当前默认可用,已在应用和CLI中显示、IDE扩展即将支持,但仅在明确要求时触发,代价是比单代理消耗更多tokens。