Claude 托管代理的新功能:梦想、成果与多代理协同

8
分类业界资讯
作者Anthropic
来源跳转
发表时间

内容

今天我们正式推出 Claude 托管代理(Claude Managed Agents)中的“梦境”(dreaming)功能,作为研究预览版发布。梦境功能通过回顾过往会话来发现模式,并帮助代理实现自我优化,从而扩展了记忆能力。同时,我们还向使用托管代理进行开发的开发者开放了成果评估、多代理协同(multiagent orchestration)和 Webhook 功能。这些更新共同提升了代理处理复杂任务的能力,同时最大限度地减少人工干预。

借助“梦境”构建自我优化的代理

梦境是一项定时运行的过程,它会审查你的代理会话和记忆存储,提取行为模式,并精选记忆内容,使代理能够随时间推移不断改进。你可以自主决定控制程度:梦境可以自动更新记忆,也可以让你在变更生效前进行审核。

image

梦境能够揭示单个代理自身无法察觉的模式,包括重复出现的错误、代理群体逐渐趋同的工作流程,以及团队共有的偏好。它还会对记忆结构进行重构,确保记忆在演进过程中始终保持高信息密度。这对于长期任务和需要多代理协同的场景尤为有用。

记忆与梦境共同构成了一个强大的自我优化代理记忆系统。记忆让每个代理能够在工作过程中实时捕捉所学内容;而梦境则在会话间歇对这些记忆进行提炼,整合跨代理的共享经验,并确保其时效性。

梦境功能现已在 Claude 平台上的托管代理中提供;开发者可在此申请访问权限

交付更优成果

通过成果评估,你可以编写一份评分标准,明确描述成功的标准,代理则会据此努力达成目标。一个独立的评分器会在其自身的上下文窗口中根据你的标准评估输出结果,因此不会受到代理推理过程的影响。当结果不理想时,评分器会精准指出需要改进之处,代理则会重新尝试。

当代理清楚“优秀”的标准时,它们的表现最佳。例如:一个结构框架、一套演示规范,或一组必须满足的需求。借助成果评估,代理可以对照这一标准检查自身工作,并自我修正,直至输出达到合格水平,而无需人类逐一审核每次尝试。

成果评估特别适用于那些需要注重细节和全面覆盖的任务。它也适用于主观质量判断,例如文案是否符合品牌调性,或设计是否遵循视觉规范。在测试中,相比标准提示循环,成果评估将任务成功率提升了最高达 10 个百分点,其中在最具挑战性的问题上提升最为显著。成果评估还提升了文件生成质量,在我们的内部基准测试中,docx 文件任务成功率提升了 +8.4%,pptx 文件提升了 +10.1%。

你现在还可以定义一个成果标准,让代理运行任务,并在完成后通过 Webhook 接收通知。

多代理协同处理复杂任务

当单个代理难以高质量完成工作量过大时,多代理协同 功能允许主代理将任务拆解,并将每一部分委派给具有专属模型、提示词和工具的专家代理。例如,主代理可以主导一项调查,而子代理则并行分析部署历史、错误日志、指标数据和支持工单。

这些专家代理在共享文件系统上并行工作,并向主代理的总体上下文贡献信息。由于事件具有持久性,且每个代理都记得自己已完成的工作,主代理可以在工作流中途与其他代理进行核对。你还可以在 Claude 控制台 中追踪每一步操作:哪个代理做了什么、按什么顺序、以及为何如此,从而全面掌握任务的分派与执行情况。

image

团队实践案例

各团队正在利用梦境、成果评估和多代理协同功能,部署能够自我验证、跨会话学习并并行处理复杂任务的代理:

  • Harvey 使用托管代理来协调复杂的法律工作,如长篇起草和文档创建。借助梦境功能,其代理能够在会话间记住所学内容,包括文件类型变通方法和特定工具的使用模式。在测试中,任务完成率提升了约 6 倍。
  • Netflix 的平台团队构建了一个分析代理,用于处理来自数百个构建任务、不同来源的日志。在面对影响数千个应用的变更时,关键在于找出在多个应用中反复出现的问题。多代理协同功能使该代理能够并行分析批次数据,并仅呈现值得采取行动的模式。
  • Spiral(由 Every 开发)正在利用多代理协同和成果评估功能,为其新 API 和 CLI 背后的写作代理提供动力。主代理运行于 Haiku:它接收请求,必要时提出快速追问,然后将起草任务委派给运行于 Opus 的子代理。当用户请求多个草稿时,子代理会并行运行。写作质量是螺旋式模式的核心价值,因此他们使用成果评估来确保质量。每个草稿都会根据每个编辑原则和用户声音(均从记忆中调取)的评分标准进行打分,只有达标的草稿才会被返回。
  • Wisedocs 基于托管代理构建了一个文档质量检查代理,使用成果评估功能根据内部指南对每次审查进行评分。现在,审查速度提升了 50%,同时仍与团队标准保持一致。

快速入门

梦境功能目前处于研究预览阶段,成果评估、多代理协同和记忆功能则作为托管代理的一部分,已在公开测试版中提供。要开始使用梦境功能,请在此申请访问权限。查阅我们的文档以了解更多信息,或访问 Claude 控制台 部署你的第一个代理。

评论

(0)
未配置登录方式
暂无评论