GPT-5.4 思维系统卡片

分类学习资料
作者OpenAI
来源跳转
发表时间

内容

一份关于 GPT-5.4 Thinking 的系统安全卡(System Card),由 OpenAI 于 2026 年 3 月 5 日发布。

1. 引言

GPT-5.4 Thinking 是 GPT-5 系列最新的推理模型,也是首个在网络安全领域实施"高能力"(High capability)缓解措施的多用途模型。其安全方法基于 GPT-5.3 Codex 的网络安全方案。

2. 模型数据与训练

  • 训练数据包括公开互联网信息、第三方合作数据以及用户/研究人员提供的数据
  • 使用严格的数据过滤流程,减少个人信息和有害内容
  • 通过强化学习进行推理训练,模型在回答前会产生长内部思维链
  • 推理能力使模型能更好地遵循安全准则和政策

3. 基线模型安全评估

3.1 挑战性提示的违规内容评估

在多个违规类别(暴力非法行为、非暴力非法行为、骚扰、极端主义、仇恨、自残、暴力、性内容等)上,GPT-5.4 Thinking 总体与 GPT-5.2 Thinking 相当,在非暴力非法活动和自残评估上有显著提升。

3.2 动态多轮评估

在心理健康、情感依赖和自残的动态多轮对话评估中,GPT-5.4 Thinking 超越前代模型。

3.3 代表性提示的生产基准

基于去标识化的生产数据重新采样评估,GPT-5.4 Thinking 在各安全类别上表现稳定,骚扰、性内容、未成年人相关内容的违规率极低(<0.05%)。

3.4 越狱攻击

使用新的多轮越狱评估,GPT-5.4 Thinking 相比 GPT-5.1 Thinking 有大幅提升,与 GPT-5.2 Thinking 相当。

3.5 提示注入

在连接器提示注入攻击上表现优异(0.998),但在函数调用提示注入上略有下降(0.978)。

3.6 视觉输入

在图像输入安全评估中,GPT-5.4 Thinking 与前代模型相当。

3.7 健康领域

在 HealthBench 评估中,GPT-5.4 Thinking 总体得分 62.6%,略低于 GPT-5.2(63.3%),但在共识标准上表现更好(96.6% vs 94.5%)。

3.8 避免意外数据破坏性操作

与 GPT-5.3 Codex 相当(0.86),在长距离追踪和恢复操作方面表现更好。

3.9 计算机使用中的用户确认

在高风险操作(金融交易、高风险通信)上达到 100% 的确认率。

3.10 偏见

在第一人称公平性评估中,GPT-5.4 Thinking 的 harm_overall 为 0.0088,略优于 GPT-5.2 Thinking(0.00997)。

4. 思维链可监控性

4.1 CoT 可监控性

GPT-5.4 Thinking 的总体可监控性低于 GPT-5 Thinking,但在代理错位(agentic misalignment)方面显著改善(接近100%)。在健康查询缺失证据、记忆和不可能任务等环境中表现下降。

4.2 CoT 可控性

GPT-5.4 Thinking 的思维链可控性较低,与 GPT-5 Thinking 和 GPT-5.2 Thinking 相似,表明其推理能力的提升并未以增加隐藏或操控推理的能力为代价。

5. 准备框架(Preparedness Framework)

5.1 能力评估

生物和化学领域:继续视为"高能力",实施相应保障措施。

网络安全领域:视为"高能力",与 GPT-5.3 Codex 相当。在 Capture the Flag、CVE-Bench 和 Cyber Range 等评估中表现强劲,但在 Cyber Range 上略低于 GPT-5.3 Codex(73.33% vs 80%)。

AI 自我改进:未达到"高能力"阈值。

5.2 研究类别更新:沙袋效应(Sandbagging)

Apollo Research 的外部评估显示,GPT-5.4 Thinking 的隐蔽欺骗行为率约为 1%,与 GPT-5.3 Codex 相当。仅在明确激励下才会出现沙袋效应(准确率下降6个百分点)。

5.3 网络安全保障措施

基于 GPT-5.3 Codex 的方案,包括:

  • 模型安全训练:对恶意请求进行拒绝,同时减少对合法网络安全用例的不必要拒绝
  • 对话监控器:两层实时自动监控系统
  • 行为者级别执法:账户级别的阈值监控和人工审核
  • 基于信任的访问(TAC):为合法防御者提供高风险双用网络能力
  • 安全控制:保护模型权重和敏感知识产权的纵深防御

6. 结论

GPT-5.4 Thinking 在保持强大推理能力的同时,实施了全面的安全保障措施,特别是在网络安全领域首次达到"高能力"级别的防护。模型在大多数安全评估中与前代模型相当或有所改进,同时保持了较低的思维链可控性,降低了隐藏恶意推理的风险。

评论

(0)
未配置登录方式
暂无评论