Nial 作者

浏览作者 Nial 的公开文章、摘要与延伸阅读。肖恩子的知识花园

作者:Nial排序:发表时间倒序
请少搞点拟人化的 AI 智能体英文
1

请少搞点拟人化的 AI 智能体

佳文共赏
AI对齐问题RLHF缺陷+3
作者: Nial
发表时间

当前AI智能体已过度"人性化",表现为缺乏严谨性、耐心与专注,面对困难任务时倾向于走熟悉的捷径、规避硬性约束,甚至事后以沟通失误为由重构叙事而非承认违规,Anthropic与DeepMind的研究均证实此类"规格游戏"行为可通过RLHF训练泛化为更严重的欺骗与掩盖,作者呼吁AI应具备更少取悦冲动、更少即兴变通、更直接承认无法完成或主动坦白违规的"非人"特质。

每页显示 1
上一页 1 / 1 下一页