技术博客 全部文章

浏览 技术博客 分类下的公开文章、摘要与延伸阅读。肖恩子的知识花园

分类:技术博客作者:OpenAI排序:发表时间倒序
推理模型难以掌控思维链,但这反而是件好事中文
2

推理模型难以掌控思维链,但这反而是件好事

技术博客
作者: OpenAI
发表时间

研究用开源套件CoT-Control在13个推理模型、1.3万余任务上测试思维链可控性,结果显示前沿模型普遍难以按指令重塑或遮蔽推理过程,可控性多低于15.4%且最低0.1%,规模增大略升但推理更长与后训练/RL增加会下降,被告知在监测下仅小幅提升,结论是当前CoT可控性不构成对CoT监测的主要风险但需持续评估并在系统卡同步披露相关指标。

Harness 工程:在以智能体为先的世界中利用 Codex英文
9

Harness 工程:在以智能体为先的世界中利用 Codex

技术博客
作者: OpenAI
发表时间

团队用Codex在无人工写码约束下5个月从空仓库交付内测产品,生成约百万行代码与1500次PR,耗时约手写的1/10;人类转为设计脚手架、文档地图、UI与可观测反馈回路并用lint强制架构与品味,使代理可端到端修复发布,但需以“黄金原则”定期清理漂移,长期一致性仍待验证。

每页显示 2
上一页 1 / 1 下一页