背景
在 KULAAI(dl.kulaai.cn) 上把四个模型的 API 都接完之后,横评跑了几轮,发现一个反直觉的现象:同一句提示词,在 GPT-5.5 上完美运行,丢给 Claude 4.8 可能风格跑偏,丢给 Grok 4.3 可能直接忽略格式指令。
不是哪个模型不行,是每个模型的“性格”不同。GPT-5.5 你说什么它做什么,指令遵循度最高。Claude 4.8 倾向于帮你“优化”需求,自作主张加戏。Grok 4.3 需要明确的逻辑链,模糊指令直接自由发挥。Gemini 3.5 对结构化的要求最敏感,格式乱它输出就乱。
用同一套提示词应付四个模型,等于放弃每个模型的长处。分享我在真实项目中针对四个模型打磨出的提示词适配技巧。
总览:四个模型的提示词响应差异
| 模型 | 指令遵循度 | 代码风格 | 对模糊指令的容忍 | 需要约束的倾向 |
|---|---|---|---|---|
| GPT-5.5 | 极高 | 工程规范,异常处理完整 | 低,太模糊会追问式输出 | 过度防御性编程偶发 |
| Claude 4.8 | 高 | 优雅,追求最佳实践 | 中,会帮你补全需求 | 过度设计、冗余封装 |
| Grok 4.3 | 中 | 逻辑硬核,工程细节粗 | 极低,模糊直接自由发挥 | 漏边界条件、命名随意 |
| Gemini 3.5 | 中低 | 偏学术,规范不稳定 | 高,会强行脑补 | 格式不一致、幻觉偏高 |
GPT-5.5 提示词技巧
GPT-5.5 是指令遵循度最高的模型,和它沟通不需要“哄”,需要“准”。
它最怕的不是复杂指令,是指令之间有歧义。一个问题里包含两个不同方向的约束,它会严格遵循,但两个约束打架时它优先遵循离问题更近的那条。
代码生成场景: 不要只描述功能,直接描述工程约束。不用写“注意异常处理”,它默认会做。需要写的是“这个模块的异常需要区分业务异常和系统异常,业务异常返回 4xx 状态码,系统异常返回 5xx”。给它工程边界,不给通用建议。
Bug 排查场景: 把完整上下文一次性喂进去。报错日志、相关代码片段、环境信息、触发条件,越完整定位越快。GPT-5.5 会主动分析调用链,不需要你拆开问。
避坑: 不要给 GPT-5.5 写“尽可能”“尽量”这类模糊词。它会把“尽可能简洁”理解成“省略注释”。想要什么直接说——“每个函数不超过 20 行”“注释用中文”。
Claude 4.8 提示词技巧
Claude 4.8 的特点是会主动帮你“优化”需求。你说“写个缓存工具”,它可能给你一个带过期策略、淘汰算法、监控埋点的完整方案。技术上没错,但你只想要一个最简单的。
约束比鼓励更重要。 跟 Claude 4.8 沟通,负面约束比正面要求更有效。“不要过度设计”“只实现需求文档里明确提到的功能”“不要在基础工具类里引入第三方依赖”。把它可能自作主张的方向提前堵死。
架构设计场景: 这是 Claude 4.8 的强项,不需要太多技巧。把项目背景、约束条件、风险偏好讲清楚,它出的方案质量很高。唯一要注意的是技术选型——它的推荐偏向“社区最佳实践”,不一定是“你团队最熟悉的”。加一句“优先选择团队已有技术栈的方案”。
避坑: 不要让 Claude 4.8 写简单工具函数。它会用三层封装实现一个本可以十行搞定的逻辑。简单的活交给 GPT-5.5,复杂的架构设计才找它。
Grok 4.3 提示词技巧
Grok 4.3 的强项在逻辑推理,弱项在工程规范。它能把算法写对,但变量命名、边界处理、异常捕获这些工程细节经常漏。
需要显式要求工程规范。 GPT-5.5 和 Claude 4.8 默认会做的工程处理,Grok 4.3 需要你明确要求。写代码时加一句“需要完整的异常处理和边界判断”“变量命名遵循项目规范”“输入参数需要类型校验”。
终端操作场景: 这是 Grok 4.3 的最强项,提示词不需要太多技巧。直接描述要完成什么操作,它会主动考虑错误处理和降级方案。但要加一句“执行前检查目标路径和权限”,避免它的自信导致误操作。
逻辑推理场景: Grok 4.3 适合需要深度推理的任务——算法优化、性能分析、并发排查。把问题描述清楚,给它完整的上下文,它能把逻辑链理得很清晰。
避坑: 不要让 Grok 4.3 做风格统一和可读性优化,它对这些不敏感。代码交给它写完之后,再用 Gemini 3.5 过一遍风格。
Gemini 3.5 提示词技巧
Gemini 3.5 对结构化要求最高,也最容易因为格式问题跑偏。它的指令遵循度不如 GPT-5.5 和 Claude 4.8,但对代码异味和风格不一致的敏感度独一档。
格式要求必须放在最前面。 Gemini 3.5 会把指令里最靠前的内容当成最高优先级。想要它用表格输出,第一句就写“用表格列出”。想要它按步骤输出,第一句就写“按以下步骤:”。格式指令放在末尾会被忽略。
风格统一场景: 这是 Gemini 3.5 最合适的定位。给它一版已经写好的代码,让它审查命名一致性、冗余逻辑、可读性问题。但不要让它直接执行修改,让它列建议,人工筛选后再改。
避坑: 不要让 Gemini 3.5 单独生成代码。它的逻辑 Bug 率偏高,代码生成用它辅助 GPT-5.5 或 Claude 4.8 的风格收尾即可。
各模型适配要点速查
| 模型 | 提示词核心策略 | 关键控制词 |
|---|---|---|
| GPT-5.5 | 给边界,不给建议 | “按以下规范”“工程约束如下” |
| Claude 4.8 | 给约束,不给自由 | “不要过度设计”“仅实现文档中的功能” |
| Grok 4.3 | 给规范,不给默认 | “需要完整异常处理”“命名遵循项目规范” |
| Gemini 3.5 | 给结构,不给混乱 | “用表格/列表输出”“按以下步骤” |
跨模型传递的提示词适配
多模型协同场景下,同一个任务需要多个模型参与。但给 GPT-5.5 写的提示词不能直接复制给 Grok 4.3——格式要求可能在 Grok 4.3 那里被忽略。
实践经验是:给 GPT-5.5 的提示词偏“工程约束”风格,给 Claude 4.8 的偏“架构边界”风格,给 Grok 4.3 的偏“逻辑链+规范要求”风格,给 Gemini 3.5 的偏“结构化清单”风格。
同一个任务描述可以复用,但每个模型的约束词必须按各自性格重写。
总结
提示词适配的核心不是“学一套万能模板”,是理解每个模型的性格。GPT-5.5 是听话的下属,需要精准指令。Claude 4.8 是有主见的架构师,需要框定边界。Grok 4.3 是逻辑强的执行者,需要补齐工程规范。Gemini 3.5 是眼光毒辣的评审,需要结构化输入。
知道它们各自在什么情况下会跑偏,提前在提示词里堵住跑偏的方向,比事后修正高效得多。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。