英文通过 API 中的新模型推进语音智能发展
OpenAI在API推出三款实时语音模型:GPT‑Realtime‑2支持GPT‑5级语音推理、工具调用和128K上下文,GPT‑Realtime‑Translate支持70多种输入语言实时译成13种语言,GPT‑Realtime‑Whisper提供低延迟流式转写,面向开发者构建可听、可推理、可翻译、可转写并实时执行任务的语音应用,现已开放并公布定价。
浏览作者 OpenAI 的公开文章、摘要与延伸阅读。肖恩子的知识花园
英文OpenAI在API推出三款实时语音模型:GPT‑Realtime‑2支持GPT‑5级语音推理、工具调用和128K上下文,GPT‑Realtime‑Translate支持70多种输入语言实时译成13种语言,GPT‑Realtime‑Whisper提供低延迟流式转写,面向开发者构建可听、可推理、可翻译、可转写并实时执行任务的语音应用,现已开放并公布定价。
英文OpenAI开源了编排规范Symphony,用任务看板替代人工盯会话,让每个开放工单自动分配独立编码代理持续执行、失败重试、跟踪CI并由人审核,核心以SPEC.md和WORKFLOW.md定义流程,结果是部分团队合并PR提升500%,显著降低上下文切换,使工程师转向高判断力工作。
中文OpenAI于2026年4月23日发布GPT-5.5,在不降低推理速度的前提下显著提升代理编码、计算机操作、知识工作和科研能力,编码与多步骤任务基准成绩领先,token效率更高,并已向ChatGPT、Codex及企业用户开放;同时强化网络与生化安全治理,其正从更强模型升级为可直接替代部分高强度专业工作的通用智能工具。
英文Chronicle是OpenAI为ChatGPT Pro macOS用户推出的可选研究预览功能,通过捕获屏幕内容生成Codex记忆以减少用户重复输入上下文,需授予屏幕录制和辅助功能权限,存在快速消耗速率限制、提示注入攻击风险及本地未加密存储敏感信息等问题,用户可随时暂停或禁用,屏幕截图本地临时保存6小时后删除,生成的记忆经服务器处理后以Markdown形式存于本地,截图本身不用于训练。
中文OpenAI Agents SDK是面向多智能体工作流的轻量框架,兼容OpenAI及100多种LLM,提供智能体配置、工具调用、安全校验、人机协作、会话管理、追踪调试和实时语音能力,0.14.0新增容器化沙盒智能体,可在本地执行长时任务、检查文件、运行命令和打补丁,提升复杂自动化任务的可控性与扩展性。
英文OpenAI发布Codex重大更新,使其从写代码扩展为可操作电脑、原生浏览网页、生成图像、接入90多个插件、支持PR审查与SSH远程开发的开发助手,并新增自动化、记忆和主动建议能力,可跨天持续处理重复任务,把开发全流程更集中到一个工作区,提升效率与连续性。
中文OpenAI更新Agents SDK,提供标准化代理基础设施,使代理可在受控沙盒中读写文件、运行命令、编辑代码并处理长期任务;新增可配置内存、沙盒感知编排、文件系统工具和原生沙盒执行,支持多云与环境可移植;开发者能更安全地将代理从原型扩展到生产,并提升持久运行与弹性扩展能力。
英文OpenAI扩大可信网络安全访问计划,向经验证的个人和团队开放更高权限,并推出为防御场景微调的GPT‑5.4‑Cyber,在加强身份验证和分级管控下提升漏洞发现、修复和逆向分析能力;其结论是让防御能力随模型能力同步扩张,广泛赋能合法防御者,同时压缩滥用风险。
中文OpenAI推出免费学习平台OpenAI Academy,为全球教育、企业、政府等用户提供专家活动、社区协作和知识资源,系统教授从AI基础到高级集成的实用技能,支持线上线下参与与按兴趣地域连接,帮助用户更快获取产品前沿信息并用生成式AI提升问题解决、创造力与生产力。