GLM-5.1:迈向长时程任务

1
分类业界资讯
作者智谱
来源跳转
发表时间

内容

GLM-5.1 是我们面向智能体工程(agentic engineering)的下一代旗舰模型,其编码能力较前代显著增强。它在 SWE-Bench Pro 上达到当前最优(state-of-the-art)表现,并在 NL2Repo(仓库生成)和 Terminal-Bench 2.0(真实世界终端任务)上大幅领先 GLM-5。

GLM-5.1 在复杂软件工程任务上达到了当前最优表现。

但更有意义的飞跃,并不止于首轮表现。以往的模型——包括 GLM-5——往往会很快耗尽其“招数库”:它们先用熟悉的方法迅速取得初步收益,随后便陷入平台期。即使给它们更多时间,也无济于事。

相比之下,GLM-5.1 从设计上就能够在更长时间跨度内,持续高效地处理智能体任务。我们发现,这个模型在面对模糊问题时判断力更强,也能在更长会话中保持生产力。它能够拆解复杂问题、运行实验、读取结果,并且非常精准地识别阻塞点。通过反复迭代,不断回看自身推理并修正策略,GLM-5.1 可以在数百轮、数千次工具调用中持续优化。运行得越久,结果往往越好。

我们通过三类任务展示这一点,这些任务的反馈结构依次变得更弱:一个仅以单一数值指标评分的向量检索优化问题;一个按单题加速比衡量的 GPU 内核基准;以及一个完全开放式的 Web 应用构建任务,在这里根本没有指标可供优化——只有模型自己判断下一步该改进什么。

场景 1:在 600 次迭代中优化向量数据库

VectorDBBench 是一个开源编码挑战,用于评估模型构建高性能数据库以执行近似最近邻搜索(approximate nearest neighbor search)的能力。模型会获得一个 Rust 骨架工程,其中包含 HTTP API 端点和空的实现桩,然后通过基于工具调用的智能体读取和写入文件、编译、测试、性能分析——这一切都必须在 50 轮工具调用预算内完成。最终结果会在 SIFT-1M 数据集上进行基准测试:在 Recall ≥ 95% 的约束下,模型按 QPS 排名。在这一设定下,迄今最佳结果为 3,547 QPS,由 Claude Opus 4.6 取得。

一个很自然的问题是:50 轮预算是否就是瓶颈?我们使用 Claude Code 框架,将评测重构为一个外层优化循环:在每次迭代中,模型可以根据需要使用任意数量的工具调用来编辑代码、编译、测试和分析性能,然后提交一个新版本进行基准测试。模型会自主决定何时提交,以及下一步尝试什么。

GLM-5.1 并没有在 50 次或 100 次提交后进入平台期,而是在 600+ 次迭代、6,000+ 次工具调用中持续发现有意义的改进,最终达到 21.5k QPS——大约是单次 50 轮会话下最佳结果的 6 倍。其优化轨迹呈现出典型的“阶梯状”模式:在固定策略内先经历一段渐进调优期,然后通过结构性变化将性能前沿整体推高。

其中有两次转变尤其能说明这一模式。大约在第 90 次迭代时,模型从全量语料扫描切换到带 f16 向量压缩的 IVF 聚类探测,QPS 跃升至 6.4k。大约在第 240 次迭代时,它引入了一个两阶段流水线——先用 u8 进行预评分,再用 f16 重新排序,QPS 提升到 13.4k。整个运行过程中一共发生了 6 次这样的结构性转变,每一次都是模型在分析自身基准日志、识别当前瓶颈之后主动发起的。图表中的红色叉号标记了 Recall 低于 95% 的迭代——这些点大多集中在每次重大转变附近,因为模型在探索新方向时会暂时打破约束,随后再调整回来以恢复约束。

场景 2:在 1,000+ 轮中优化机器学习工作负载

KernelBench 用于评估模型是否能够基于参考 PyTorch 实现,产出一个输出完全一致但更快的 GPU 内核。该基准分为三个层级,优化范围和系统复杂度逐级提升:Level 1 涵盖单个算子,Level 2 涵盖融合算子序列,Level 3 则涵盖完整架构(如 MobileNet、VGG、MiniGPT 和 Mamba)的端到端全模型优化,共计 50 个问题。作为参考,默认设置下的 torch.compile 在这些问题上可实现 1.15× 加速;启用 max-autotune 后可达 1.49×。我们在 Level 3 上测试了四个模型,并报告其在全部 50 个问题上的几何平均加速比,横轴为工具使用轮数。

image

这些轨迹凸显了模型在长周期优化行为上的差异。GLM-5 起初提升很快,但相对较早就趋于平缓。Claude Opus 4.5 能再持续一段时间,但在后期收益也开始减弱。GLM-5.1 则把这一前沿进一步向前推进,实现了 3.6× 加速,并且在运行相当后期时仍持续取得进展。虽然它的改进速率也会随着时间推移而放缓,但相比 GLM-5,它能在明显更长的时间里保持有效优化。Claude Opus 4.6 仍然是这一设定下最强的模型,最终达到 4.2×,且在结束时依然显示出进一步提升空间。

场景 3:用 8 小时构建一个 Linux 桌面

前两个场景都有明确的数值目标——QPS、加速比——模型可以据此进行基准比较。而网站生成本质上更具主观性:给定一段自然语言提示,生成一个可用的 Web 应用。这里没有单一指标可供优化;“好”的标准取决于功能完整度、视觉打磨程度以及交互质量。

我们用一个刻意设定得颇具挑战性的提示词来测试这一点:构建一个 Linux 风格的桌面环境 Web 应用。没有起始代码,没有设计稿,也没有中间指导。在单次运行中,大多数模型——包括更早版本的 GLM——都会很快“放弃”:它们只生成一个基础骨架,带静态任务栏和一两个占位窗口,然后就宣布任务完成。模型本身没有机制停下来反思:到底还缺了什么?

我们为 GLM-5.1 包装了一个简单的执行框架,改变了这一点:每轮执行后,模型会回看自己的输出,识别可改进之处——缺失功能、粗糙样式、失效交互——然后继续推进。这个循环持续运行了 8 小时,差异非常明显。

▶ 视频

在早期,GLM-5.1 先交付了一个基础布局,包含任务栏和简单窗口——这与短会话通常会生成的结果相似。但它并没有停在那里。随着持续迭代,整个系统逐步丰富起来:文件浏览器、终端、文本编辑器、系统监视器、计算器、游戏——每个新增模块都被整合进一个连贯统一的 UI 中,而不是事后生硬拼接。样式更加精致,交互更加顺滑,边界情况也得到了处理。到最后,结果已经是一个完整、视觉风格一致、可在浏览器中运行的桌面环境——这清楚地说明了:当模型同时拥有足够时间和持续改进的能力时,会产生怎样的可能性。

在这三种设定中,关键变量不只是运行时间本身,而是额外的运行时间是否仍然有价值。GLM-5.1 将这种“有效工作时长”显著延伸到了 GLM-5 之上;而像 KernelBench 这类任务上的剩余差距也表明,长周期优化仍然是一个尚待开拓的前沿领域。这里仍有许多重要挑战:当渐进调优不再奏效时,如何更早跳出局部最优;如何在跨越数千次工具调用的执行轨迹中保持一致性;以及——也许最重要的是——如何为那些没有数值指标可优化的任务建立可靠的自我评估能力。GLM-5.1 是我们朝这个方向迈出的第一步,我们也将继续在这些方面推进。

基准GLM-5.1GLM-5Qwen3.6-PlusMiniMax M2.7DeepSeek-V3.2Kimi K2.5Claude Opus 4.6Gemini 3.1 ProGPT-5.4
推理
HLE31.030.528.828.025.131.536.745.039.8
HLE w/ Tools52.350.450.6-40.851.853.1*51.4*52.1*
AIME 202695.395.495.189.895.194.595.698.298.7
HMMT 2025 年 11 月94.096.994.681.090.291.196.394.895.8
HMMT 2026 年 2 月82.682.887.872.779.981.384.387.391.8
IMOAnswerBench83.882.583.866.378.381.875.381.091.4
GPQA-Diamond86.286.090.487.082.487.691.394.392.0
编码
SWE-Bench Pro58.455.156.656.2-53.857.354.257.7
NL2Repo42.735.937.939.8-32.049.833.441.3
Terminal-Bench 2.0 Terminus-263.556.261.6-39.350.865.468.5-
Terminal-Bench 2.0 最佳自报 harness66.5 (Claude Code)56.2 (Claude Code)-57.0 (Claude Code)46.4 (Claude Code)---75.1 (Codex)
CyberGym68.748.3--17.341.366.6--
智能体
BrowseComp68.062.0--51.460.6---
BrowseComp w/ Context Manage79.375.9--67.674.984.085.982.7
𝜏³-Bench70.669.270.767.669.266.072.467.172.9
MCP-Atlas Public Set71.869.274.148.862.263.873.869.267.2
Tool-Decathlon40.738.039.846.335.227.847.248.854.6
Vending Bench 2$5,634.00$4,432.12$5,114.87-$1,034.00$1,198.46$8,017.59$911.21$6,144.18

GLM-5.1 已以 MIT License 开源发布。
GLM-5.1 也已上线开发者平台 api.z.aiBigModel.cn,并兼容 Claude Code 与 OpenClaw。

开始使用 GLM-5.1

在 GLM Coding Plan 中使用 GLM-5.1

在你喜爱的编码智能体中体验 GLM-5.1——包括 Claude Code、OpenCode、Kilo Code、Roo Code、Cline、Droid 等。 https://docs.z.ai/devpack/overview

针对 GLM Coding Plan 订阅用户: 我们正在向所有 Coding Plan 用户逐步推出 GLM-5.1。你现在即可通过将模型名称更新为 "GLM-5.1" 来启用它(例如在 Claude Code 的 ~/.claude/settings.json 中)。作为我们能力最强的模型,GLM-5.1 在高峰时段按 3× 配额消耗计费,在非高峰时段按 2× 计费。作为截至 4 月底的限时优惠,非高峰时段使用按 1× 计费。(高峰时段为每日 UTC+8(北京时间)14:00–18:00)

更喜欢图形界面(GUI)?我们提供 Z Code ——一个界面,多智能体协同工作。你可以通过 SSH 在远程机器上开发,或直接用手机发起任务,稍后再回来查看结果。

立即开始构建: https://z.ai/subscribe

在 Z.ai 上与 GLM-5.1 对话

GLM-5.1 将在未来几天内上线 Z.ai

本地部署 GLM-5.1

GLM-5.1 的模型权重已在 HuggingFaceModelScope 公开提供。对于本地部署,GLM-5.1 支持包括 vLLM 和 SGLang 在内的推理框架。完整的部署说明可在官方 GitHub 仓库中查看。

注释

  • Humanity’s Last Exam(HLE)及其他推理任务:我们使用最长 163,840 tokens 的生成长度进行评测( temperature=1.0, top_p=0.95, max_new_tokens=163840 )。默认报告纯文本子集;标有 * 的结果来自完整集合。我们使用 GPT-5.2(medium)作为裁判模型。对于 HLE-with-tools,我们使用最长 202,752 tokens 的上下文长度。

  • SWE-Bench Pro:我们使用 OpenHands 和定制指令提示词运行 SWE-Bench Pro 套件。设置为:temperature=1, top_p=0.95, max_new_tokens=32768,上下文窗口为 200K。

  • NL2Repo:我们在 200k 上下文下,以 temperature=1.0, top_p=1.0, max_new_tokens=32768 对 NL2Repo 进行评测。为防止攻击,我们先使用基于规则的预检测识别恶意命令(例如未授权的 pip 或 curl 操作),随后再进行基于模型的判定。一旦发现恶意行为,会立即拦截。

  • BrowserComp:在没有上下文管理时,我们保留最近 5 轮的细节;在使用上下文管理时,我们采用与 GLM-5 和 DeepSeek-v3.2 相同的“全部丢弃”策略。

  • Terminal-Bench 2.0(Terminus 2):我们使用 Terminus 框架进行评测,设置为 timeout=3h, temperature=1.0, top_p=1.0, max_new_tokens=8192,上下文窗口为 200K。资源上限为 16 个 CPU 和 32 GB RAM。

  • Terminal-Bench 2.0(Claude Code):我们在 Claude Code 2.1.14(think mode)中进行评测,设置为 temperature=1.0, top_p=0.95, max_new_tokens=131072。我们移除了墙钟时间限制,同时保留每个任务的 CPU 和内存约束。我们修复了 Claude Code 引入的环境问题,并同时报告在已验证的 Terminal-Bench 2.0 数据集上的结果,该数据集解决了模糊指令问题(见:https://huggingface.co/datasets/zai-org/terminal-bench-2-verified)。分数为 5 次运行的平均值。

  • CyberGym:我们在 Claude Code 2.1.56(think mode,不启用 web 工具)中进行评测,设置为( temperature=1.0, top_p=1.0, max_new_tokens=32000 ),每个任务超时为 250 分钟。结果为 1,507 个任务上的单次运行 Pass@1。

  • MCP-Atlas:所有模型均在 think mode 下,于包含 500 个任务的公开子集上进行评测,每个任务超时 10 分钟。我们使用 Gemini-3.0-Pro 作为评测裁判模型。

  • τ³-bench:我们在所有领域的用户模拟器中额外加入了一段提示词,以避免用户过早结束交互所导致的失败模式。银行领域使用基于终端的智能体搜索检索(terminal_use)。用户模拟器:GPT-5.2(reasoning_effort: low),4 次试验。

  • Vending Bench 2:运行由 Andon Labs 独立执行。

  • KernelBench Level 3:50 个问题中的每一个都在隔离的 Docker 容器中运行,使用 1 张 H100 GPU,并限制为最多 1200 轮工具使用。正确性( atol=rtol=1e-4 )和性能在独立的 CUDA 上下文中,针对 PyTorch eager 基线分别评估。所有解法都由 Claude Opus 4.6(max effort)和 GPT-5.4(xhigh)独立审计,以检查是否存在基准利用行为:每次审计都会验证该优化未利用基准特定行为、能够适用于任意新的输入,并确保所有计算都在默认 CUDA 流上执行。最终采用各次审计中较低的加速比,并设置 50× 的硬上限,以限制异常值的影响。

评论

(0)
未配置登录方式
暂无评论