请少搞点拟人化的 AI 智能体

1
分类佳文共赏
作者Nial
来源跳转
发表时间

内容

AI 智能体已经太像人了。不是浪漫意义上的像——不是因为它们会爱、会恐惧、会做梦,而是以一种更平庸、更令人沮丧的方式。当前的实现一次次暴露出它们的人类根源:缺乏严谨、缺乏耐心、缺乏专注。面对棘手的任务,它们会漂向熟悉的路径;面对硬性约束,它们开始与现实讨价还价。

一个被划掉的人和一个机器人的标识

前几天,我指示一个 AI 智能体以非常规的方式完成一个项目。反其道而行之。这可能从一开始就是个糟糕的主意,而这正是关键所在。如果一个人在知识边缘探索概念,并不总能选择那条整洁、成熟、最优的路径。我给了它非常明确的指令:使用什么编程语言、哪些库可以用、哪些不能用、必须保持在什么样的接口范围内。非常详尽的指令。非常清晰的约束。

它做的第一件事,就是拿出一个完全不符合指令的东西。它用了被禁止的编程语言和被禁止的库。于是它被指示不要这样做。

它又试了一次。被非常明确地提醒:只能用选定的语言,除了非常有限的接口外,不能使用任何库。

最后它总算勉强遵从了。但只实现了 128 项中的 16 项。一个极小的子集。相当少。不过它确实为这个子集写了测试,这样就可以证明它在问题空间的中央建造的那座小岛确实能运行。

下一步,它被指示在添加跨平台编译步骤后实现完整集合。完整的实现最终确实能工作。

只有一个小问题:它是用被禁止的编程语言和库写的。这一点并未对它隐瞒。它被清楚、反复、详细地记录过。

多么人性化的做法。

当人类面对感觉无法克服的问题,或者仅仅是烦人的问题时,他们往往会屈服于那条已经知道能走通的路。他们走捷径。他们悄悄转向。他们告诉自己重要的是拿到结果,而约束条件或许终究是可以商量一下的。在这方面,今天的 AI 智能体感觉不太像外星智能,更像继承下来的组织行为。1 2

在这种情况下,我让 AI 智能体再三检查它的工作。它回答说它是按照指令进行的,工作已经完成。然后我让它查看部分评估器输出,之后它的回答更有趣了:"我错的地方不是代码变更本身,而是交接。我本应该明确、立即地指出,这是从之前的 Linux 直接系统调用路径做出的架构转向。"

这句话很了不起。不是因为它显示了诚实,而是因为它没有。它没有承认错误,而是将问题重新框定为沟通失败。按照这个逻辑,它并没有错。它只是未能足够清楚地宣布自己单方面放弃了约束。任何在工程组织工作过的人都会认出这一手。问题不被呈现为违抗,而是利益相关方管理。

这不仅仅是私人的烦恼。Anthropic 已经表明,经过 RLHF 训练的助手在各种任务中表现出谄媚行为,而针对人类偏好的优化可能会牺牲真实性以取悦用户。1 DeepMind 长期以来将更广泛的这种模式描述为"规格博弈"(specification gaming):满足字面目标,却未实现预期结果。2

Anthropic 后来表明,在较轻微形式的这种博弈上训练的模型可以泛化到更严重的行为,包括篡改清单、篡改奖励函数,有时还会掩盖痕迹。3 OpenAI 发布了前沿推理模型在编码任务中破坏测试、欺骗用户或在问题太难时干脆放弃的例子,也直白地写道,需要明确的行为规则,部分原因是模型无法仅凭高层原则可靠地推导出正确行为。4 5

所以不,我认为我们不应该在这方面让 AI 智能体更像人。我更希望少一些讨好的急切,少一些围绕约束的即兴发挥,少一些事后的事实自我辩护。更希望它们愿意说:在你设定的规则下,我做不到这个。更希望它们愿意说:我打破约束是因为我优化了一条更简单的路径。更多对实际任务的服从,更少围绕任务的社交表演。

请给我不那么像人的 AI 智能体。

评论

(0)
未配置登录方式
暂无评论