中文2
推理模型难以掌控思维链,但这反而是件好事
技术博客
作者: OpenAI
发表时间:
研究用开源套件CoT-Control在13个推理模型、1.3万余任务上测试思维链可控性,结果显示前沿模型普遍难以按指令重塑或遮蔽推理过程,可控性多低于15.4%且最低0.1%,规模增大略升但推理更长与后训练/RL增加会下降,被告知在监测下仅小幅提升,结论是当前CoT可控性不构成对CoT监测的主要风险但需持续评估并在系统卡同步披露相关指标。
浏览 技术博客 分类下的公开文章、摘要与延伸阅读。肖恩子的知识花园
中文研究用开源套件CoT-Control在13个推理模型、1.3万余任务上测试思维链可控性,结果显示前沿模型普遍难以按指令重塑或遮蔽推理过程,可控性多低于15.4%且最低0.1%,规模增大略升但推理更长与后训练/RL增加会下降,被告知在监测下仅小幅提升,结论是当前CoT可控性不构成对CoT监测的主要风险但需持续评估并在系统卡同步披露相关指标。
英文团队用Codex在无人工写码约束下5个月从空仓库交付内测产品,生成约百万行代码与1500次PR,耗时约手写的1/10;人类转为设计脚手架、文档地图、UI与可观测反馈回路并用lint强制架构与品味,使代理可端到端修复发布,但需以“黄金原则”定期清理漂移,长期一致性仍待验证。