《辛普森一家》中的雷尔夫·威格姆是目前人工智能领域最火的名字

分类佳文共赏
作者Carl Franzen
来源跳转
发表时间

内容

在人工智能(AI)开发迅速变化的世界中,很少有工具既被描述为“一个梗”(meme),又被认为是通用人工智能(AGI,Artificial General Intelligence)的“圣杯”——一种模型或系统,可以在经济上有价值的工作中可靠地超越人类。

然而,这正是 Ralph Wiggum 插件 для Claude Code 目前的状态。

以《辛普森一家》中臭名昭著的高音调、倒霉却又坚持不懈的角色命名,这个新工具(于 2025 年夏季发布)——以及其背后的哲学——在过去的几周里,已经让开发者社区在 X(前身为 Twitter)上兴奋不已。

对于 Anthropic 的热门编码平台 Claude Code 的高级用户来说,Wiggum 代表着从与 AI “聊天”到管理自治“夜班”的转变。

这是一个粗糙但有效的步骤,朝着代理编码迈进,将 AI 从配对编程员转变为一个不间断工作的工人,直到任务完成。

起源故事:两个拉尔夫的故事

要了解“拉尔夫”工具,就要了解一种新的方法来提高自治 AI 编码性能——这种方法依赖于蛮力、失败和重复,就像它依赖于原始智力和推理一样。

因为拉尔夫·威格姆不再只是一个《辛普森一家》的角色;它是一种在山羊农场诞生并在旧金山研究实验室中完善的方法论,这种分歧最好通过其创造者与更广泛的开发者社区之间的对话来记录。

这个故事始于大约 2025 年 5 月,Geoffrey Huntley 是一位长期从事开源软件开发的开发者,他转而开始在澳大利亚农村养山羊。

Huntley 对代理编码工作流程中的一个基本限制感到沮丧: “人在环节”瓶颈。

他意识到,虽然模型是有能力的,但它们被用户需要手动审查和重新提示每个错误的需要所限制。

Huntley 的解决方案是优雅的粗暴。他写了一个 5 行的 Bash 脚本,他开玩笑地以《辛普森一家》中那个愚笨但又坚持不懈和不屈不挠的角色拉尔夫·威格姆命名。

正如 Huntley 在他的初始发布 博客文章 中解释的那样,“拉尔夫·威格姆作为一个‘软件工程师’”,这个想法依赖于上下文工程。

通过将模型的整个输出——包括失败、堆栈跟踪和幻觉——重新输入到下一个迭代的输入流中,Huntley 创建了一个“上下文压力锅”。

这种哲学在他最近与 Dexter Horthy,联合创始人兼 CEO 的企业 AI 工程公司 HumanLayer 的对话中得到了进一步的阐述,该对话已发布在 YouTube 上。

Horthy 和 Huntley 认为,原始拉尔夫的力量不仅在于循环,还在于其“天真坚持”——未经清理的反馈,其中大型语言模型(LLM)没有被保护免受其自身的混乱;它被迫面对这种混乱。

它体现了这样的哲学:如果你将模型推向其自身失败的极限而不提供安全网,它最终会“梦想”出一个正确的解决方案,只是为了逃避循环。

到 2025 年底,Boris Cherny,Anthropic 的 Claude Code 负责人,将这个黑客攻击正式化为官方的 ralph-wiggum 插件。

然而,正如 Horthy/Huntley 讨论中的批评者所指出的,官方发布标志着哲学的转变——原始混乱概念的“灭菌”。

虽然 Huntley 的脚本是关于蛮力的,但官方的 Anthropic 插件是围绕“失败即数据”原则设计的。

在官方文档中,区别是明显的。Anthropic 实现利用了一个专门的“停止钩子”——一种机制,拦截 AI 尝试退出命令行界面(CLI)的行为。

  1. 拦截退出:当 Claude 认为它完成了任务时,插件会暂停执行。

  2. 验证承诺:它检查特定的“完成承诺”(例如,“所有测试都通过了”)。

  3. 反馈注入:如果承诺没有被满足,失败会被格式化为一个结构化的数据对象。

“两个拉尔夫的故事”为现代高级用户提供了一个关键的选择:

  • “Huntley 拉尔夫”(Bash 脚本/社区分支):适合混乱的、创造性的探索,您希望 AI 通过纯粹的、无拘无束的坚持来解决问题。

  • “官方拉尔夫”(Anthropic 插件):企业工作流程的标准,严格受限于令牌限制和安全钩子,旨在可靠地修复破损的构建,而无需冒无限幻觉循环的风险。

简而言之:Huntley 证明了循环是可能的;Anthropic 证明了它可以是安全的。

它提供了什么:编码者的夜班

文档清楚地说明了拉尔夫的优势所在:具有自动验证(如测试或 linter)的新项目和任务。

但是对于“无聊的东西”,效率的收益已经成为传奇。根据 GitHub 上的官方插件文档,该技术已经记录了一些令人瞠目结舌的胜利。

在一个案例中,开发人员据报道仅需 297 美元的 API 成本就完成了一个 5 万美元的合同,基本上是通过人工智能循环来套利昂贵的人类律师/编码员和无情的人工智能循环之间的差价。

存储库还强调了 Y Combinator 黑客马拉松的压力测试,其中该工具“成功生成了 6 个存储库”,有效地允许单个开发人员在睡眠期间输出一个小团队的样板代码。

与此同时,在 X 上,社区成员如 ynkzlk 已经分享了拉尔夫处理开发人员所害怕的维护工作的截图,例如 14 小时的自治会话,它完全没有人工干预地将过时的代码库从 React v16 升级到 v19。

为了使其安全地发挥作用,高级用户依赖于特定的架构。Matt Pocock,一位著名的开发人员和教育者,他最近在 YouTube 上发布了一个关于拉尔夫·威格姆为什么如此强大的视频概述。

正如他所说:“编码代理的一个梦想是,你可以在早上醒来看到可用的代码,你的编码代理已经处理了你的待办事项,并且只是生成了一堆代码让你审查,它可以正常工作。”

在 Pocock 的看法中,Wiggum(插件)是你能接近这个梦想的最接近的东西。它是“比我尝试过的任何其他 AI 编码编排设置都有了显著的改进,并且允许你实际上使用长时间运行的编码代理交付可用的东西”,他说。

他建议使用强大的反馈循环,如 TypeScript 和单元测试。

如果代码编译并通过测试,AI 发出完成承诺;如果没有,停止钩子强迫它再试一次。

核心创新:停止钩子

在其核心,拉尔夫·威格姆技术非常简单。正如 Huntley 所说:“拉尔夫是一个 Bash 循环。”

然而,官方插件以一种聪明的、技术上不同的方式实现了这一点。与其在外部运行脚本,插件在 Claude 会话内部安装一个“停止钩子”。

  1. 你给 Claude 一个任务和一个“完成承诺”(例如 <promise>COMPLETE</promise>)。

  2. Claude 工作于任务,并尝试在认为完成时退出。

  3. 钩子在承诺没有找到时阻止退出,将相同的提示重新输入系统。

  4. 这强制执行一个“自我参照反馈循环”,其中 Claude 看到其以前的工作,阅读错误日志或 Git 历史,并再次尝试。

Pocock 将其描述为从“瀑布”规划转变为真正的“敏捷”开发,适用于 AI。与其强迫 AI 遵循一个脆弱的、多步骤的计划,Ralph 允许代理简单地“从板上取一个票”,完成它,然后寻找下一个。

社区反应:“最接近 AGI 的东西”

AI 构建者和开发者社区在社交媒体上的反应非常热情。

Dennison Bertram,自定义加密货币和区块链令牌创建平台 Tally 的 CEO 和创始人,于 12 月 15 日在 X 上发帖:

“开玩笑吧,这可能是我见过的最接近 AGI 的东西:这个提示对于 Claude 来说是一个绝对的野兽。”

Arvid Kahl, 自动播客商业智能提取和品牌检测工具 Podscan 的创始人兼 CEO,在他自己的 X 帖子中令人信服地介绍了拉尔夫的坚持方法的好处。

而且,就像芝加哥企业家 Hunter Hammonds 所说:

Opus 4.5 + Ralph Wiggum 与 XcodeBuild 和 playwright 将会创造百万富翁。

标记我的话。

你还没准备好

在 2025 年 AI 场景中具有讽刺意味的转折,拉尔夫现象不仅生成了代码——它还生成了一个市场。

并且就在本周早些时候,有人(Huntley 说不是他)在 Solana 区块链上推出了一个新的 $RALPH 加密货币令牌,以利用围绕该插件的炒作。

但是:成本和安全性

兴奋之情伴随着显著的警告。软件公司 Better Stack 在 X 上警告用户 关于无限循环的经济现实:

“拉尔夫·威格姆插件以自治循环运行 Claude Code... 但是那些不间断的 API 调用会破坏你的令牌预算吗?”

因为循环运行直到成功,文档建议使用“逃生舱”。

用户应该始终设置 --max-iterations 标志(例如 20 或 50),以防止 AI 在不可能的任务上浪费资金。

还有一个安全方面。

为了有效地工作,Ralph 通常需要 --dangerously-skip-permissions 标志,授予 AI 对终端的完全控制权。

安全专家严格建议在沙盒环境中(如可丢弃的云虚拟机)运行 Ralph 会话,以防止 AI 意外删除本地文件。

可用性

拉尔夫·威格姆技术现已可用于 Claude Code 用户:

  • 官方插件:可通过 /plugin ralph 在 Claude Code 内访问。

  • 原始方法:原始的 Bash 脚本和 社区分支 可在 GitHub 上找到。

当 2026 年开始时,拉尔夫·威格姆已经从一个《辛普森一家》的笑话演变成软件开发的定义性原型:迭代 > 完美。

更正:本文错误地描述了 Boris Cherney 的职称。文章已被更新和更正,我们为错误道歉。

评论

(0)
未配置登录方式
暂无评论