发布日期:2026-06-23 | 话题:AI 编程工具 | 适用人群:开发者、AI 工程师、独立开发者

Codex 桌面版和 CLI 支持通过 config.toml 接入任何兼容 OpenAI Responses API 的模型,官方内置推荐模型为 gpt-5.5(最强复杂任务)和 gpt-5.4-mini(轻量快速),同时支持 Claude、Gemini、Mistral、本地 Ollama 等第三方模型。选型核心结论:如果优先编程能力基准,当前 SWE-bench Verified 排行中 Gemini 3.1 Pro 以 80.6% 领先,Claude Sonnet 4 和 Opus 4 分别以 72.7% 和 72.5% 紧随;如果优先成本控制,官方 gpt-5.4-mini 或接入本地 Ollama 是最省钱方案;如果优先推理深度,gpt-5.5 和 Claude Opus 4.8 在复杂架构任务上有明显优势。本文从官方模型定位、第三方模型接入限制、SWE-bench 数据对比、成本结构四个维度,给出不同场景下的具体配置建议。


Codex 官方推荐模型:四档定位

Codex 官方文档(developers.openai.com/codex/models)列出的推荐模型按能力从高到低分四档:

模型定位适合场景访问限制
gpt-5.5旗舰最强复杂编程、Computer Use、研究工作流全账号类型
gpt-5.4专业平衡强推理 + 工具调用 + Agent 工作流全账号类型
gpt-5.4-mini快速轻量轻量补全、子 Agent 任务、高频调用全账号类型
gpt-5.3-codex-spark研究预览近实时编码迭代(接近即时响应)仅限 ChatGPT Pro

日常使用建议:

  • 复杂任务默认 gpt-5.5,成本贵但效果最强
  • 高频重复任务(如自动修复 lint、写测试)用 gpt-5.4-mini,比 gpt-5.5 省约 7 倍
  • 想体验实时编码的 Pro 用户可试 gpt-5.3-codex-spark
# 日常开发配置
model = "gpt-5.5"
model_reasoning_effort = "medium"

# 成本敏感 / CI 配置
model = "gpt-5.4-mini"
model_reasoning_effort = "low"

接入第三方模型的关键限制:Chat Completions 正在废弃

官方文档有一条重要警告,很多教程没有提到:

"Support for the Chat Completions API is deprecated and will be removed in future releases of Codex."

这意味着:接入第三方模型必须使用 Responses API,不能只支持 Chat Completions

目前明确支持 Responses API 的第三方服务:

  • Azure OpenAI(wire_api = "responses"
  • Amazon Bedrock(内置 provider,直接走 Bedrock 认证)
  • CC Switch(https://api.ccswitch.cc/v1,专为 Codex 适配)

Chat Completions 格式的 provider 目前仍可用,但未来某个版本会停止支持。如果你在用只提供 Chat Completions 接口的服务接 Codex,建议关注该 provider 的更新计划。

本地模型(Ollama / LM Studio) 通过保留 ID 直接支持,不受此限制:

# 本地 Ollama(不受 Responses API 限制)
model = "qwen2.5-coder:32b"
model_provider = "ollama"

SWE-bench 编程能力对比:2026 年最新数据

SWE-bench Verified 是目前最权威的 AI 编程能力基准,用真实 GitHub Issues 测试模型独立修复代码的能力。

模型SWE-bench Verified备注
Gemini 3.1 Pro80.6%Google DeepMind,单次尝试
Claude Sonnet 472.7%无 Extended Thinking,高计算可达 80.2%
Claude Opus 472.5%无 Extended Thinking,高计算可达 79.4%
Claude 3.5 Sonnet49%2025 年初数据(Anthropic 官方)
Claude 3 Opus22%2025 年初数据(Anthropic 官方)

怎么理解这个数据:

SWE-bench 分数是模型"裸能力"的参考,实际在 Codex 里的效果还受到 Agent 调度质量、工具调用策略、上下文管理的影响。同一个模型,通过 Codex 使用比直接调用 API 通常效果更好,因为 Codex 做了额外的 Agent 脚手架。

Gemini 3.1 Pro 的 80.6% 是当前公开数据里最高的单次得分,但它通过 Codex 接入需要 Google AI Studio API Key,且目前只能走 Chat Completions 格式(Responses API 支持有限),受前述废弃限制影响。


第三方模型接入对比:哪些实测好用

Claude Opus 4.8 / Sonnet 4.6(通过 CC Switch / Fenno 接入)

适合场景: 复杂重构、多文件架构分析、长上下文任务

Claude 系列的核心优势是长上下文理解和推理深度,Opus 4.8 在涉及全局代码库分析的任务上表现尤为突出(SWE-bench 高计算模式达 79.4%)。Claude Sonnet 4.6 是价格/性能平衡最优的选项之一。

model = "claude-sonnet-4-6"
model_provider = "ccswitch"
model_reasoning_effort = "medium"

[model_providers.ccswitch]
name = "CC Switch"
base_url = "https://api.ccswitch.cc/v1"
env_key = "CCSWITCH_API_KEY"

Qwen2.5-Coder(本地 Ollama)

适合场景: 离线开发、中文代码注释、成本为零的本地任务

Qwen2.5-Coder 系列是目前开源代码模型里效果最好的之一,32B 版本在补全任务上接近闭源中等模型,且完全本地运行无 API 费用。

model = "qwen2.5-coder:32b"
model_provider = "ollama"
approval_policy = "on-request"

Mistral Codestral(通过 Mistral API 接入)

适合场景: 欧洲数据合规要求、填充式代码补全(FIM)

Mistral 是官方文档中明确列出的示例 provider,支持 Chat Completions 格式,当前仍可用(未来受废弃影响)。

model = "codestral-latest"
model_provider = "mistral"

[model_providers.mistral]
name = "Mistral"
base_url = "https://api.mistral.ai/v1"
env_key = "MISTRAL_API_KEY"

Amazon Bedrock(企业/AWS 用户)

适合场景: 已有 AWS 基础设施、企业数据不出云要求

Bedrock 是唯一有内置 Provider 支持的第三方云服务,走 AWS 原生认证,无需 API Key 配置:

model = "us.anthropic.claude-sonnet-4-6"
model_provider = "amazon-bedrock"

[model_providers.amazon-bedrock.aws]
profile = "default"
region = "us-east-1"

按场景选模型:四种典型配置

场景一:追求最强编程效果

model = "gpt-5.5"
model_reasoning_effort = "high"
approval_policy = "on-request"

官方旗舰,复杂重构和多步 Agent 任务首选。成本最高,建议用 --profile 只在需要时加载。

场景二:日常开发,平衡效果与成本

model = "claude-sonnet-4-6"
model_provider = "ccswitch"
model_reasoning_effort = "medium"

[model_providers.ccswitch]
name = "CC Switch"
base_url = "https://api.ccswitch.cc/v1"
env_key = "CCSWITCH_API_KEY"

SWE-bench 72.7%,长上下文理解强,价格比 gpt-5.5 便宜约 3-5 倍(通过第三方平台接入)。

场景三:CI/批量任务,成本最低

model = "gpt-5.4-mini"
approval_policy = "never"
hide_agent_reasoning = true

[history]
persistence = "none"

官方轻量模型,适合自动修复 lint、批量写单测、格式化等重复性任务。

场景四:完全离线,零费用

model = "qwen2.5-coder:32b"
model_provider = "ollama"
approval_policy = "on-request"

[tui]
file_opener = "cursor"

本地 Ollama 运行,Apple Silicon M4 Pro 及以上可流畅使用 32B 量化版本,无 API 费用。


怎么在不同模型间切换(Profile 方案)

不同场景用不同 Profile,切换一条命令:

# 默认(日常开发)
codex

# 深度推理(用旗舰模型)
codex --profile deep

# CI 模式(轻量无交互)
codex --profile ci

对应的 Profile 文件:

# ~/.codex/deep.config.toml
model = "gpt-5.5"
model_reasoning_effort = "high"
approval_policy = "on-request"
# ~/.codex/ci.config.toml
model = "gpt-5.4-mini"
approval_policy = "never"
hide_agent_reasoning = true

常见问题 FAQ

Q1:接入 Claude 之后,效果真的比 gpt-5.5 好吗?
取决于任务类型。Claude Sonnet 4 在长上下文理解和涉及全局代码库分析的任务上与 gpt-5.5 接近;SWE-bench 数据显示 Claude 4 系列(72%+)落后于 Gemini 3.1 Pro(80.6%),但 SWE-bench 是单次任务基准,不完全代表 Agent 交互场景的实际体验。建议用自己的典型任务实测 2-3 轮再决定。

Q2:Gemini 3.1 Pro SWE-bench 得分最高,为什么不是首选?
三个原因:① 接入 Codex 目前需要自行配置 Google AI Studio API,支持文档较少;② Responses API 支持尚不完整,未来 Chat Completions 废弃后可能失效;③ 国内访问稳定性不如 CC Switch / Fenno 等专为 Codex 适配的平台。如果你的网络环境和 API 条件允许,值得尝试。

Q3:本地模型(Ollama)在 Codex 里能用吗?实测如何?
完全可用,且不受 Responses API 废弃限制。Qwen2.5-Coder:32B 在补全、单文件修改类任务上效果接近中等闭源模型,但多文件重构和需要全局推理的任务明显差于 gpt-5.5 或 Claude Sonnet 4。有 Apple Silicon M3 Max/M4 Pro 以上的用户可以流畅跑 32B 量化版本,具体速度取决于芯片和量化精度。

Q4:Chat Completions API 什么时候会被完全废弃?
官方文档说"将在未来版本移除"但未给具体时间线。目前仍可用,但建议新配置优先选择支持 Responses API 的 provider(CC Switch、Azure、Bedrock)。

Q5:一个 API Key 能同时给 Claude Code 和 Codex 用吗?
可以。CC Switch 和 Fenno 都支持两个工具共用一个 Key——Claude Code 的 ~/.claude/settings.json 和 Codex 的 ~/.codex/config.toml 分别填入相同的 base_url 和 Key 即可,互不干扰。


小结

Codex 接哪个模型效果最好,答案取决于三个变量:任务复杂度、成本预算、基础设施约束。追求基准最高分选 Gemini 3.1 Pro(SWE-bench 80.6%,接入门槛高);追求成本/效果平衡选 Claude Sonnet 4.6(SWE-bench 72.7%,第三方平台接入成熟);追求零费用选本地 Ollama + Qwen2.5-Coder;不想折腾直接用官方 gpt-5.5。无论接什么模型,记住一条:Chat Completions API 正在被 Codex 废弃,新配置优先选支持 Responses API 的 provider。本文数据来源:Codex 官方文档(developers.openai.com/codex)、Anthropic Claude 4 发布说明、Google DeepMind Gemini 3.1 Pro 技术页,2026-06。


参考来源:

  • Codex 官方文档:Models(developers.openai.com/codex/models)
  • Anthropic:Claude 4 发布说明(anthropic.com/news/claude-4)
  • Google DeepMind:Gemini 3.1 Pro 基准(deepmind.google/models/gemini/pro)
  • 七牛云:AI 编程工具配置大全
  • Fenno 官网:AI 编程

七牛云行业应用
10 声望10 粉丝