Z.AI / glm-5.1

GLM-5.1Z.AIGLM-5
0 0 0 更新于 2026-05-06 22:04

GLM-5.1 是 Z.AI 面向智能体工程打造的下一代旗舰模型,其编码能力较前代显著增强。该模型在 SWE-Bench Pro 上达到业界领先水平,并在 NL2Repo(仓库生成)与 Terminal-Bench 2.0(真实终端任务)上以大幅优势领先 GLM-5。

编码评估

但最具意义的飞跃远不止于首次执行的表现。此前包括 GLM-5 在内的模型往往过早耗尽策略:它们会运用熟悉的技术快速取得初步收益,随后便陷入平台期。即使给予更多时间也无济于事。

相比之下,GLM-5.1 专为在更长的时间跨度内保持智能体任务的有效性而设计。我们发现,该模型能以更优的判断力处理模糊问题,并在更长的会话周期中保持高效产出。它能分解复杂问题、运行实验、读取结果,并以极高的精度识别障碍。通过反复迭代审视推理过程并修正策略,GLM-5.1 可在数百轮交互与数千次工具调用中持续优化。运行时间越长,效果越佳。

基准测试

GLM-5.1GLM-5Qwen3.6-PlusMinimax M2.7DeepSeek-V3.2Kimi K2.5Claude Opus 4.6Gemini 3.1 ProGPT-5.4
HLE31.030.528.828.025.131.536.745.039.8
HLE(带工具)52.350.450.6-40.851.853.1*51.4*52.1*
AIME 202695.395.495.189.895.194.595.698.298.7
HMMT 2025年11月94.096.994.681.090.291.196.394.895.8
HMMT 2026年2月82.682.887.872.779.981.384.387.391.8
IMOAnswerBench83.882.583.866.378.381.875.381.091.4
GPQA-Diamond86.286.090.487.082.487.691.394.392.0
SWE-Bench Pro58.455.156.656.2-53.857.354.257.7
NL2Repo42.735.937.939.8-32.049.833.441.3
Terminal-Bench 2.0(Terminus-2)63.556.261.6-39.350.865.468.5-
Terminal-Bench 2.0(最佳自报成绩)66.5(Claude Code)56.2(Claude Code)-57.0(Claude Code)46.4(Claude Code)---75.1(Codex)
CyberGym68.748.3--17.341.366.6--
BrowseComp68.062.0--51.460.6---
BrowseComp(带上下文管理)79.375.9--67.674.984.085.982.7
τ³-Bench70.669.270.767.669.266.072.467.172.9
MCP-Atlas(公开集)71.869.274.148.862.263.873.869.267.2
Tool-Decathlon40.738.039.846.335.227.847.248.854.6
Vending Bench 2$5,634.00$4,432.12$5,114.87-$1,034.00$1,198.46$8,017.59$911.21$6,144.18