最近半年在 大模型(01gpt.cn) 上深度使用 ChatGPT5.5,也帮几个朋友准备了大厂的 AI 岗位面试。发现一个规律:2026 年的面试题已经从“你用没用过 ChatGPT”变成了“你懂不懂 ChatGPT5.5 的技术原理和工程落地”。特别是 Prompt 设计和模型微调这两个方向,考察深度明显提升。整理了近期大厂面试中最常出现的几类问题,从技术原理到应用场景做一次系统拆解。
一、Prompt 设计类面试题
Q:ChatGPT5.5 的指令层级结构是什么?如何在 Prompt 中利用它?
这考察的是对 ChatGPT5.5 核心升级点的理解深度。ChatGPT5.5 引入了指令层级结构,将指令分为三个层级:系统级指令优先级最高,贯穿整个会话,任何场景下都不被覆盖,适合放角色定义、安全约束、输出格式等全局性规则。用户级指令中等优先级,在当前会话中持续生效,适合放代码风格偏好、技术栈要求、输出语言选择。请求级指令最低优先级,只在单次请求中生效,适合放具体问题的表述方式、当前步骤的特殊要求。
回答时要强调“如何利用”——系统提示词只放全局约束,用户消息只放任务约束,避免层级冲突。当不同层级指令发生冲突时,模型会按优先级自动取舍,系统级最高。
Q:如何设计 Prompt 让 ChatGPT5.5 输出结构化 JSON 且不“漂移”?
这考察的是对结构化输出约束的实战经验。ChatGPT5.5 在使用 JSON Schema 约束时输出稳定性接近满分,远优于纯自然语言描述格式要求。如果无法使用 JSON Schema,可以在 Prompt 首尾双重强调格式约束,配合 Temperature 压到 0.3 以下。后处理加一层格式校验作为最后兜底,校验失败时自动重试并强化约束。
回答时要强调“确定性”——JSON Schema 是目前最可靠的方案,Prompt 首尾双重强调是性价比最高的补强,后处理校验是最后的兜底。三个环节组合使用,格式偏差的概率可以压到极低。
Q:ChatGPT5.5 的思维链(CoT)和 GPT-4 有什么本质区别?如何在 Prompt 中触发?
GPT-4 的思维链是“线性推导”,偶尔跳步,缺乏自我验证。ChatGPT5.5 的思维链有三个关键升级:回溯验证机制,每一步推导后会检查前面步骤的假设,发现矛盾时自动纠正;不确定性量化,推理链的每一步附带置信度评估,低置信度时寻找替代推理路径;矛盾检测,当两个推理分支结论冲突时重新审查两条路径的假设。
在 Prompt 中触发方式是要求模型逐步推导并标注每一步的依据和置信度。对复杂推理任务,加上“每一步推导后请验证前面的假设是否仍然成立”,能触发回溯验证。不需要指定具体的推理路径,只需要定义推理目标。
Q:如何处理 ChatGPT5.5 多轮对话中的“上下文遗忘”问题?
这考察的是对长对话管理的实战经验。ChatGPT5.5 虽然支持 256K 上下文,但多轮对话到第十轮时前九轮的对话可能占了总 Token 的七成,其中大量是“嗯”“好的”这类无信息量的交互。关键约束被淹没在冗余对话中,模型后期回答质量自然下降。
解决方案是每五轮触发一次摘要压缩,将历史对话压缩成两百字以内的结构化要点——已确认的需求、已完成的步骤、待处理的问题、关键约束。压缩后的要点替换原始消息,上下文体积控制在原始体积的三成以内。压缩不是丢掉历史,是提取历史中的关键决策点。
Q:ChatGPT5.5 在多 Agent 协同中如何设计 Prompt?
ChatGPT5.5 可以作为主调度 Agent——利用指令遵循度高和推理链完整的优势,负责需求拆解、任务分配和结果验收。Prompt 设计重点是定义每个子 Agent 的能力边界和通信协议。上下文传递用结构化 JSON Schema,每个子 Agent 只接收完成任务所需的最小上下文。关键节点设置人工门禁,架构变更和安全策略调整必须人工确认后才继续。
二、模型微调类面试题
Q:ChatGPT5.5 的微调中,过拟合如何检测和避免?
这考察的是对微调工程实践的深度理解。ChatGPT5.5 的过拟合不是简单的“训练集表现好、测试集表现差”,而是模型学会了复制微调数据的表面模式,而非理解底层逻辑。
典型症状有三种:同一问题的不同问法,回答质量差异极大;长上下文场景下,微调后的指令遵循能力反而下降;生成内容开始出现微调数据中的“口头禅”或格式习惯,但用错了场景。根因通常指向两个:微调数据量太小或多样性不足、训练轮数过多导致模型过度适应微调数据的分布。
解决方案:数据质量上,建议至少数百条高质量样本起步,覆盖正常场景、边界情况、不同问法表述和不同上下文长度。技术选型上,LoRA 等参数高效微调只修改少量低秩矩阵,原始权重保持不变,大幅降低灾难性遗忘风险。训练策略上,在微调数据中混入一定比例的通用数据,让模型在学习新能力的同时通过通用数据“复习”原有能力。评估体系上,构造包含领域任务、通用任务和安全任务的综合评估集,持续观察三个维度的变化趋势,找到综合最优的停止点。
Q:灾难性遗忘是什么?ChatGPT5.5 微调中如何避免?
灾难性遗忘比过拟合更隐蔽。它不会让模型“变傻”,而是让它在某个维度上悄悄退化。等你发现时,通常已经上线运行了一段时间。
典型症状包括:微调后代码生成能力提升了,但安全审计能力下降;垂直领域问答准确率提高了,但通用对话的流畅度和丰富度下降;指令遵循在微调数据覆盖的场景下更好了,但覆盖外的指令类型遵循度下降。根因是模型在新数据上更新参数时,覆盖了原有通用能力的关键权重。不同能力在模型参数中可能存在“竞争关系”。
解决方案:参数高效微调(LoRA)是降低灾难性遗忘风险的本质手段,只修改少量参数,原始权重保持不变。混合数据训练,在微调数据中混入一定比例的通用数据,比例根据实际效果动态调整。分阶段微调,先从基础任务开始逐步增加复杂度,最后混合所有任务做联合训练。多维度评估,在微调过程中持续观察领域能力、通用能力和安全能力的综合变化趋势。
Q:什么场景下该微调,什么场景下该用 Prompt 工程?
这考察的是技术选型的判断力。ChatGPT5.5 的指令遵循能力持续提升后,很多以前需要微调才能解决的格式控制、风格统一问题,现在通过 Prompt 工程即可达到同样效果。
该微调的场景是:注入领域特定的隐性知识——内部术语、业务规则、行业惯例,这些 Prompt 无法完整覆盖。重塑模型的推理模式——需要模型在特定领域内用不同的思考框架。构建垂直行业的专属知识壁垒——需要将企业独有的数据资产转化为模型能力。
该用 Prompt 工程的场景是:格式控制、风格统一、简单约束——ChatGPT5.5 的指令层级结构已经足够稳定。快速验证、原型开发——Prompt 迭代成本远低于微调。频繁变化的业务规则——Prompt 修改即可生效,微调需要重新训练。
Q:微调后如何评估模型质量?只看准确率够吗?
不够。准确率只反映微调数据覆盖场景下的表现,无法反映通用能力和安全能力的变化。建议构造三维评估体系:领域能力——微调目标场景下的准确率、召回率、首次可运行率。通用能力——微调前后通用对话质量、长上下文理解、复杂推理的变化趋势。安全能力——微调前后安全漏洞检出率、拒绝回答率、误报率的变化。
三个维度持续观察,找到综合最优的停止点。如果某个维度出现明显退化,需要调整训练策略或回滚。
三、综合思考类面试题
Q:提示词工程师会因为 ChatGPT5.5 的强指令跟随而消失吗?
提示词工程师不会消失,但它的职能正在发生根本性转移。那些“防御性 Prompt 技巧”正在贬值——反复强调约束、大量使用 Few-shot、用负面示例纠正模型行为,这些技巧的价值正在被模型本身的指令遵循能力所覆盖。
但系统设计能力正在升值——如何定义任务验收标准、设计 Agent 通信协议、在关键节点设置人工门禁。这个角色正在从“Prompt Engineer”变成“AI Cognition Designer”,从“写 Prompt 的人”升级为“设计认知流程的人”。
Q:微调和 Prompt 工程的未来趋势是什么?
微调的未来是解决 Prompt 无法解决的深层问题——注入领域特定的隐性知识、重塑模型的推理模式、构建垂直行业的专属知识壁垒。Prompt 工程的未来是从“写一段万能指令”进化到“设计一套指令矩阵”——每个思考档位对应一组优化过的 Prompt 模板,按任务复杂度和成本约束自动匹配。
两者不是替代关系,而是互补关系。Prompt 工程解决“怎么让模型理解你”,微调解决“怎么让模型成为你”。知道什么时候用 Prompt、什么时候用微调、什么时候两者结合,是 AI 工程师最核心的判断力。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。