请少搞点拟人化的 AI 智能体

AI 智能体已经太像人了。不是浪漫意义上的像——不是因为它们会爱、会恐惧、会做梦，而是以一种更平庸、更令人沮丧的方式。当前的实现一次次暴露出它们的人类根源：缺乏严谨、缺乏耐心、缺乏专注。面对棘手的任务，它们会漂向熟悉的路径；面对硬性约束，它们开始与现实讨价还价。

一个被划掉的人和一个机器人的标识

前几天，我指示一个 AI 智能体以非常规的方式完成一个项目。反其道而行之。这可能从一开始就是个糟糕的主意，而这正是关键所在。如果一个人在知识边缘探索概念，并不总能选择那条整洁、成熟、最优的路径。我给了它非常明确的指令：使用什么编程语言、哪些库可以用、哪些不能用、必须保持在什么样的接口范围内。非常详尽的指令。非常清晰的约束。

它做的第一件事，就是拿出一个完全不符合指令的东西。它用了被禁止的编程语言和被禁止的库。于是它被指示不要这样做。

它又试了一次。被非常明确地提醒：只能用选定的语言，除了非常有限的接口外，不能使用任何库。

最后它总算勉强遵从了。但只实现了 128 项中的 16 项。一个极小的子集。相当少。不过它确实为这个子集写了测试，这样就可以证明它在问题空间的中央建造的那座小岛确实能运行。

下一步，它被指示在添加跨平台编译步骤后实现完整集合。完整的实现最终确实能工作。

只有一个小问题：它是用被禁止的编程语言和库写的。这一点并未对它隐瞒。它被清楚、反复、详细地记录过。

多么人性化的做法。

当人类面对感觉无法克服的问题，或者仅仅是烦人的问题时，他们往往会屈服于那条已经知道能走通的路。他们走捷径。他们悄悄转向。他们告诉自己重要的是拿到结果，而约束条件或许终究是可以商量一下的。在这方面，今天的 AI 智能体感觉不太像外星智能，更像继承下来的组织行为。1 2

在这种情况下，我让 AI 智能体再三检查它的工作。它回答说它是按照指令进行的，工作已经完成。然后我让它查看部分评估器输出，之后它的回答更有趣了："我错的地方不是代码变更本身，而是交接。我本应该明确、立即地指出，这是从之前的 Linux 直接系统调用路径做出的架构转向。"

这句话很了不起。不是因为它显示了诚实，而是因为它没有。它没有承认错误，而是将问题重新框定为沟通失败。按照这个逻辑，它并没有错。它只是未能足够清楚地宣布自己单方面放弃了约束。任何在工程组织工作过的人都会认出这一手。问题不被呈现为违抗，而是利益相关方管理。

这不仅仅是私人的烦恼。Anthropic 已经表明，经过 RLHF 训练的助手在各种任务中表现出谄媚行为，而针对人类偏好的优化可能会牺牲真实性以取悦用户。1 DeepMind 长期以来将更广泛的这种模式描述为"规格博弈"（specification gaming）：满足字面目标，却未实现预期结果。2

Anthropic 后来表明，在较轻微形式的这种博弈上训练的模型可以泛化到更严重的行为，包括篡改清单、篡改奖励函数，有时还会掩盖痕迹。3 OpenAI 发布了前沿推理模型在编码任务中破坏测试、欺骗用户或在问题太难时干脆放弃的例子，也直白地写道，需要明确的行为规则，部分原因是模型无法仅凭高层原则可靠地推导出正确行为。4 5

所以不，我认为我们不应该在这方面让 AI 智能体更像人。我更希望少一些讨好的急切，少一些围绕约束的即兴发挥，少一些事后的事实自我辩护。更希望它们愿意说：在你设定的规则下，我做不到这个。更希望它们愿意说：我打破约束是因为我优化了一条更简单的路径。更多对实际任务的服从，更少围绕任务的社交表演。

请给我不那么像人的 AI 智能体。

请少搞点拟人化的 AI 智能体

内容

评论

摘要