一份关于 GPT-5.4 Thinking 的系统安全卡(System Card),由 OpenAI 于 2026 年 3 月 5 日发布。
GPT-5.4 Thinking 是 GPT-5 系列最新的推理模型,也是首个在网络安全领域实施"高能力"(High capability)缓解措施的多用途模型。其安全方法基于 GPT-5.3 Codex 的网络安全方案。
在多个违规类别(暴力非法行为、非暴力非法行为、骚扰、极端主义、仇恨、自残、暴力、性内容等)上,GPT-5.4 Thinking 总体与 GPT-5.2 Thinking 相当,在非暴力非法活动和自残评估上有显著提升。
在心理健康、情感依赖和自残的动态多轮对话评估中,GPT-5.4 Thinking 超越前代模型。
基于去标识化的生产数据重新采样评估,GPT-5.4 Thinking 在各安全类别上表现稳定,骚扰、性内容、未成年人相关内容的违规率极低(<0.05%)。
使用新的多轮越狱评估,GPT-5.4 Thinking 相比 GPT-5.1 Thinking 有大幅提升,与 GPT-5.2 Thinking 相当。
在连接器提示注入攻击上表现优异(0.998),但在函数调用提示注入上略有下降(0.978)。
在图像输入安全评估中,GPT-5.4 Thinking 与前代模型相当。
在 HealthBench 评估中,GPT-5.4 Thinking 总体得分 62.6%,略低于 GPT-5.2(63.3%),但在共识标准上表现更好(96.6% vs 94.5%)。
与 GPT-5.3 Codex 相当(0.86),在长距离追踪和恢复操作方面表现更好。
在高风险操作(金融交易、高风险通信)上达到 100% 的确认率。
在第一人称公平性评估中,GPT-5.4 Thinking 的 harm_overall 为 0.0088,略优于 GPT-5.2 Thinking(0.00997)。
GPT-5.4 Thinking 的总体可监控性低于 GPT-5 Thinking,但在代理错位(agentic misalignment)方面显著改善(接近100%)。在健康查询缺失证据、记忆和不可能任务等环境中表现下降。
GPT-5.4 Thinking 的思维链可控性较低,与 GPT-5 Thinking 和 GPT-5.2 Thinking 相似,表明其推理能力的提升并未以增加隐藏或操控推理的能力为代价。
生物和化学领域:继续视为"高能力",实施相应保障措施。
网络安全领域:视为"高能力",与 GPT-5.3 Codex 相当。在 Capture the Flag、CVE-Bench 和 Cyber Range 等评估中表现强劲,但在 Cyber Range 上略低于 GPT-5.3 Codex(73.33% vs 80%)。
AI 自我改进:未达到"高能力"阈值。
Apollo Research 的外部评估显示,GPT-5.4 Thinking 的隐蔽欺骗行为率约为 1%,与 GPT-5.3 Codex 相当。仅在明确激励下才会出现沙袋效应(准确率下降6个百分点)。
基于 GPT-5.3 Codex 的方案,包括:
GPT-5.4 Thinking 在保持强大推理能力的同时,实施了全面的安全保障措施,特别是在网络安全领域首次达到"高能力"级别的防护。模型在大多数安全评估中与前代模型相当或有所改进,同时保持了较低的思维链可控性,降低了隐藏恶意推理的风险。