今天我们正式推出 Claude 托管代理(Claude Managed Agents)中的“梦境”(dreaming)功能,作为研究预览版发布。梦境功能通过回顾过往会话来发现模式,并帮助代理实现自我优化,从而扩展了记忆能力。同时,我们还向使用托管代理进行开发的开发者开放了成果评估、多代理协同(multiagent orchestration)和 Webhook 功能。这些更新共同提升了代理处理复杂任务的能力,同时最大限度地减少人工干预。
梦境是一项定时运行的过程,它会审查你的代理会话和记忆存储,提取行为模式,并精选记忆内容,使代理能够随时间推移不断改进。你可以自主决定控制程度:梦境可以自动更新记忆,也可以让你在变更生效前进行审核。

梦境能够揭示单个代理自身无法察觉的模式,包括重复出现的错误、代理群体逐渐趋同的工作流程,以及团队共有的偏好。它还会对记忆结构进行重构,确保记忆在演进过程中始终保持高信息密度。这对于长期任务和需要多代理协同的场景尤为有用。
记忆与梦境共同构成了一个强大的自我优化代理记忆系统。记忆让每个代理能够在工作过程中实时捕捉所学内容;而梦境则在会话间歇对这些记忆进行提炼,整合跨代理的共享经验,并确保其时效性。
梦境功能现已在 Claude 平台上的托管代理中提供;开发者可在此申请访问权限。
通过成果评估,你可以编写一份评分标准,明确描述成功的标准,代理则会据此努力达成目标。一个独立的评分器会在其自身的上下文窗口中根据你的标准评估输出结果,因此不会受到代理推理过程的影响。当结果不理想时,评分器会精准指出需要改进之处,代理则会重新尝试。
当代理清楚“优秀”的标准时,它们的表现最佳。例如:一个结构框架、一套演示规范,或一组必须满足的需求。借助成果评估,代理可以对照这一标准检查自身工作,并自我修正,直至输出达到合格水平,而无需人类逐一审核每次尝试。
成果评估特别适用于那些需要注重细节和全面覆盖的任务。它也适用于主观质量判断,例如文案是否符合品牌调性,或设计是否遵循视觉规范。在测试中,相比标准提示循环,成果评估将任务成功率提升了最高达 10 个百分点,其中在最具挑战性的问题上提升最为显著。成果评估还提升了文件生成质量,在我们的内部基准测试中,docx 文件任务成功率提升了 +8.4%,pptx 文件提升了 +10.1%。
你现在还可以定义一个成果标准,让代理运行任务,并在完成后通过 Webhook 接收通知。
当单个代理难以高质量完成工作量过大时,多代理协同 功能允许主代理将任务拆解,并将每一部分委派给具有专属模型、提示词和工具的专家代理。例如,主代理可以主导一项调查,而子代理则并行分析部署历史、错误日志、指标数据和支持工单。
这些专家代理在共享文件系统上并行工作,并向主代理的总体上下文贡献信息。由于事件具有持久性,且每个代理都记得自己已完成的工作,主代理可以在工作流中途与其他代理进行核对。你还可以在 Claude 控制台 中追踪每一步操作:哪个代理做了什么、按什么顺序、以及为何如此,从而全面掌握任务的分派与执行情况。

各团队正在利用梦境、成果评估和多代理协同功能,部署能够自我验证、跨会话学习并并行处理复杂任务的代理:
梦境功能目前处于研究预览阶段,成果评估、多代理协同和记忆功能则作为托管代理的一部分,已在公开测试版中提供。要开始使用梦境功能,请在此申请访问权限。查阅我们的文档以了解更多信息,或访问 Claude 控制台 部署你的第一个代理。