头图

智谱的 GLM 5.2 已经正式开放:Z.ai 的 Coding Plan API、Hugging Face 上的 MIT 开源权重、以及 20 多个第三方 coding 工具的支持,全部同步上线,不再是"下周见"。更关键的是这次发布带了真实跑分——不是 PPT 上的宣传,是能复现的 benchmark。

如果你之前因为"没有公开分数、权重还是占位仓库"而把它列进观望名单,现在可以把它划掉了。下面是接入路径:10 分钟跑通托管 API、Claude Code 一段配置切过去、以及想自托管时的本地部署实测数据。

30 秒决策表

项目现状(2026 年 6 月)
API已上线。Z.ai Coding Plan,注册即用
开源权重已上线。huggingface.co/zai-org/GLM-5.2,MIT 许可
参数744B 总参 / 约 40B 激活(MoE),训练 28.5T tokens
上下文1M token;最大输出 131,072 token
首次调用耗时约 10 分钟(注册 → API key → CLI 配置 → smoke test)
最低成本Lite 档约 $10/月;Pro 档约 $30/月(每周约 2,000 次 prompt)
你需要一个 Z.ai 账号 + 一个 OpenAI 兼容 coding 客户端(或任何支持自定义 base_url 的工具)

跑分:这次有真实数字了

发布当天起,智谱公布了可复现的 coding benchmark(评测设置:temperature=0.7、top_p=0.95、max_new_tokens=16384、200K 上下文):

benchmarkGLM 5.2GPT-5.5GLM 5.1
SWE-bench Pro62.158.658.4
FrontierSWE74.4%72.6%

多家独立报道(VentureBeat 等)的结论一致:GLM 5.2 在多项长程(long-horizon)coding 任务上超过 GPT-5.5,而每 token 成本只有约六分之一。对"按任务付费"的 agentic coding 场景来说,这个性价比差距足以盖过几分的分数差。

需要提醒的是:SWE-bench Pro 和 FrontierSWE 是 coding 维度,不代表通用能力。如果你的活儿是长文写作、多模态或推理密集型,这两个分数参考价值有限,按你自己的 eval 跑一遍再决定。

GLM 5.2 适合你吗

适合的场景

  • 你在 monolith 项目里做多文件重构,反复撞上其他 coding agent 的 200K 上下文上限——1M 窗口能一次容纳大多数 monorepo
  • 合规团队要求开源、可审计的模型权重——MIT 是最宽松的开源许可之一,商用、修改、再分发都没有用量限制
  • 你做 agentic coding,按任务付费,对每 token 成本敏感——这正是 GLM 5.2 性价比最突出的地方

不适合的场景

  • 你已经付费在用 Sonnet / Opus 跑 Claude Code,且没有具体痛点。切换成本(工具配置、prompt 重调、eval 重跑)不会因为每月省点钱就划算——除非上下文窗口真的是瓶颈
  • 你要的是通用能力榜首,而不是 coding 专项。GLM 5.2 的强项明确在 coding
  • 你需要单一托管 endpoint 用一把 key 同时调 GLM、GPT、Claude——那看文末的替代方案

退出规则:如果你过去 30 天在真实任务里从没撞上 200K token 上下文上限,你大概率不需要专门切 GLM 5.2,先用你手上的就行。

系统要求

  • 一个 Z.ai 账号,绑定付款方式(Coding Plan 按月计费,USD 或 RMB)
  • 一个 OpenAI 兼容 coding CLI——Claude Code、Cline ≥ 3.x、OpenCode、Roo Code、Goose、Crush、OpenClaw、Kilo Code 之一,都支持自定义 base_url 和模型名覆盖
  • 能访问 api.z.ai——用 curl -I https://api.z.ai/api/paas/v4/ 验证(应得到 HTTP 响应而不是连接错误)
  • 一个 repo 的 side branch 用于首次跑。长上下文 coding agent 在 prompt 含糊时会聪明到删掉它觉得无关的文件——第一天绝不要指向 main

分步配置(托管,约 10 分钟)

flowchart LR
  A[注册 Z.ai] --> B[选 Coding Plan 档位]
  B --> C[生成 API key]
  C --> D[配置 CLI base_url + 模型名]
  D --> E[首次 smoke test]
  E --> F[接入 repo,跑真实任务]

第 1 步:注册 Z.ai Coding Plan

https://z.ai 创建账号,选一个档位:

档位大约价格配额适合场景
Lite约 $10/月每周约 400 prompt个人折腾、轻量副项目
Pro约 $30/月每周约 2,000 prompt独立开发者、日常 coding agent
Max约 $80/月每周约 8,000 prompt重度 agentic 重构、多小时自动跑
Team按席位组织内共享池3 人以上团队共享配额

第 2 步:生成 API key

dashboard 里 API Keys → Create new key,范围限定到「Coding Plan」——Z.ai 还有通用 chat、视觉等付费 endpoint,共用钱包但不该共用同一把 key。

export ZAI_API_KEY="zai-..."

key 以 zai- 开头,完整值只显示一次,放进 shell 密钥文件或密码管理器。

第 3 步:配置 coding CLI

Z.ai 暴露两个兼容 endpoint,按客户端类型选。Claude Code 说 Anthropic 协议;其余客户端(Cline、OpenCode、Roo Code、Goose、Crush、OpenClaw、Kilo Code)说 OpenAI chat-completions 形态。

OpenAI 兼容客户端

export OPENAI_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export OPENAI_API_KEY="$ZAI_API_KEY"
export OPENAI_MODEL="glm-5.2"   # 或 "glm-5.2[1m]" 启用 1M 上下文

重启 CLI 即生效。注意 Coding Plan 用的是专属 endpoint(/api/coding/paas/v4),跟 Z.ai 通用按 token 计费 API(/api/paas/v4)不同。

Python SDK smoke test

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.z.ai/api/coding/paas/v4",
    api_key=os.environ["ZAI_API_KEY"],
)
resp = client.chat.completions.create(
    model="glm-5.2[1m]",
    messages=[{"role": "user", "content": "Refactor this function to async:\n\n" + open("handler.py").read()}],
)
print(resp.choices[0].message.content)

短输入约 5 秒内返回;1M 上下文调用首 token 30–90 秒。

第 4 步:首次 smoke test

curl -s https://api.z.ai/api/coding/paas/v4/chat/completions \
  -H "Authorization: Bearer $ZAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"model":"glm-5.2[1m]","messages":[{"role":"user","content":"Reply with only OK if you are GLM 5.2."}],"max_tokens":16}' \
  | jq -r '.choices[0].message.content'

预期返回 OK。如果拿到模型身份拒绝或别的模型名,配置有错——见下文常见报错。

Claude Code 一段配置切过去

Z.ai 上线了专门的 /api/anthropic endpoint,就是为了让一个 Claude Code 工作区只换一段环境变量就变成 GLM 5.2 工作区,不用重写项目设置。

把这段塞进 ~/.zshrc(或 ~/.claude/settings.json"env" 块),开新 shell,重启 claude

export ANTHROPIC_BASE_URL="https://api.z.ai/api/anthropic"
export ANTHROPIC_AUTH_TOKEN="$ZAI_API_KEY"
export ANTHROPIC_MODEL="glm-5.2[1m]"      # 1M 上下文;去掉 [1m] 走默认
export API_TIMEOUT_MS="3000000"           # 长上下文调用 30–90 秒,这个超时是必须的

Claude Code UI 还会显示「Sonnet」/「Opus」标签——客户端不感知模型——服务端 Z.ai 把请求路由到 GLM 5.2。你的 CLAUDE.md、项目记忆、slash command、subagent 继续原样工作。

哪些会变(提交前必读)

  • 思考预设:GLM 5.2 只提供 High 和 Max 两档,没有 Claude 的 thinking_budget=auto 等价物。要么明确选,要么接受 High 作为默认。
  • tool-result 桥接:Z.ai 处理了 95%+ 的常见 pattern,但长 agentic loop 里偶尔会丢嵌套 content 块。如果看到 assistant 反复发同一个 tool call 而不是 ack,那就是这个故障——退路是切到 OpenAI 兼容 endpoint 用 Cline 或 OpenCode。
  • 延迟:1M 上下文首 token 30–90 秒(Claude 同等大小约 5–15 秒)。上面的 API_TIMEOUT_MS 必须设,否则 Claude Code 默认值会在长 Plan 调用时杀掉连接。
  • 配额:你现在花的是 Coding Plan 配额。在 Claude 那边几小时榨干周配额的 bursty loop 同样会榨干 Lite 档,长期用预算 Pro 或 Max。

回退unset ANTHROPIC_BASE_URL ANTHROPIC_AUTH_TOKEN ANTHROPIC_MODEL,重启 Claude Code,就回到 Anthropic 默认。整个切换只动 shell 环境,不碰项目状态。

配置时的常见报错

报错可能原因修复
401 invalid_api_keykey 范围选错产品,或粘贴带了空白重新生成「Coding Plan」范围的 key
model not foundmodel ID 写错完整 1M 窗口用 glm-5.2[1m],默认上下文用纯 glm-5.2
工作几分钟后 429Lite 档配额被 agent loop 烧光升级 Pro,或减少 agent 迭代轮数
响应体为空、无报错思考预算超过了 max_tokensmax_tokens 提到 ≥ 4096
tool-use 以 raw JSON 出现在文本里请求没带 tools 字段,OpenAI 兼容层不自动解析第一轮就传 tools 数组,或改用 Anthropic 兼容 endpoint
多文件重构 504 / 超时长上下文首 token 超过客户端默认超时把 CLI 的 requestTimeoutMs 调到 600000

自托管:MIT 权重已经能下载

权重已经发到 huggingface.co/zai-org/GLM-5.2,MIT 许可——商用、修改、再分发、微调、fork 都可以,自托管后没有按 token 计费。

最省事的本地路径是社区 GGUF + Ollama 或 llama.cpp:

# Ollama(自动处理下载、显存分配、上下文管理)
ollama pull glm5
ollama run glm5
# 或直接拉社区 GGUF(unsloth 的动态量化)
huggingface-cli download unsloth/GLM-5-GGUF \
    --local-dir GLM-5-GGUF \
    --include "*UD-IQ2_XXS*"

量化档位和内存需求(744B MoE,按量化差异很大):

量化磁盘最低内存典型配置
UD-IQ2_XXS(2-bit 动态)241 GB256 GB 统一内存M4 Ultra Mac Studio;或 1×24GB GPU + 256GB RAM
Q2_K_XL(2-bit)~280 GB300 GB1×24GB GPU + 300GB 系统内存
Q4_K_M(4-bit)~476 GB500 GB+多卡(2×A100 80GB + 大内存)
FP8~754 GB800 GB+8×H200 SXM5 或等效
FP16(全精度)~1.7 TB1.7 TB+企业 GPU 集群

实测速度 3–9 tokens/秒,取决于硬件(有报告在 H200 上跑 Q2_K_XL 约 8.7 tok/s)。LM Studio 用户直接在模型库搜「GLM-5」,选匹配硬件的量化一键下载。

现实路径:除非你有现成的高显存机器,大多数团队更划算的做法是先用托管 Coding Plan,等社区把量化磨得更稳、单节点配置成熟后再评估自托管。

替代方案:用一把 key 管多个 coding 模型

如果你想要的是单一 OpenAI 兼容 endpoint 覆盖多个托管 coding 模型,不想按厂商分别注册、也不想自建 H100 集群,ofox 上有几个现成的:

模型API ID优势
DeepSeek V4 Prodeepseek/deepseek-v4-procoding 调优旗舰,公开 benchmark 完整
Qwen3 Coder Nextbailian/qwen3-coder-next阿里最新 coding 专用档,多语言代码
Kimi K2.6moonshotai/kimi-k2.6长上下文召回稳定

接入形态和 GLM 5.2 一样,只换 base URL 和模型 ID:

export OPENAI_BASE_URL="https://api.ofox.io/v1"
export OPENAI_MODEL="deepseek/deepseek-v4-pro"

一把 key、多个模型,要切换时只改一个字符串。

小结

这次 GLM 5.2 真正的看点有两个:一是它确实 live 了——API、MIT 权重、20 多个工具同时落地,不用再等;二是它带着可复现的跑分来,SWE-bench Pro 62.1、FrontierSWE 74.4%,在长程 coding 上超过 GPT-5.5,而成本只有约六分之一。

模型每隔几个月就被刷新一轮,谁强谁弱是动态的。但"开源权重 + 前沿 coding 能力 + 能自托管"这个组合,给所有按 token 付费的团队提供了一个实打实的议价筹码。先用托管版跑通你自己的 eval,再决定要不要把权重拉回自己机器上。


原文链接:https://ofox.io/zh/blog/glm-5-2-access-guide-2026/?utm_source...


善良的麦片
30 声望339 粉丝