对话越聊越长,模型却“不记得”半小时前说过的话——这是所有多轮对话系统的核心痛点。ChatGPT 5.5 在长对话中的上下文管理能力有了显著提升,但它的“记忆系统”到底是如何工作的?短期对话记忆和持久化存储之间又是如何协调的?

在深入研究这个问题之前,我在 KULAAI(dl.877ai.cn)上对 ChatGPT 5.5 做了一次“记忆压力测试”。这个聚合平台能同时接入多个模型,我用完全相同的长对话场景分别跑 ChatGPT 5.5、GPT-4o 和 Grok 4.3,记录它们在对话轮次递增时的信息召回率和上下文衰减曲线。结论是 ChatGPT 5.5 在“记住该记的、忘掉该忘的”这件事上,确实有了一些有趣的进步。

这篇文章拆解 ChatGPT 5.5 在记忆系统设计上的核心机制,从工程视角聊聊它是如何在“记住一切”和“及时遗忘”之间找到平衡的。

记忆系统的双轨制:短期与长期的工程分工
大模型的“记忆”本质上由两个完全不同的系统协同完成,各自解决不同的问题。

短期记忆就是每次请求时携带的对话历史。当你和模型多轮对话时,每一轮请求都会把之前的对话记录重新发送给模型。模型通过注意力机制从这些历史中提取相关信息。这种记忆方式的优点是精确——每一轮都能完整回顾之前说过的内容。但代价也很明显:Token 消耗线性增长,每多一轮就多一轮历史要处理。

长期记忆则是指将信息持久化存储在模型外部的系统中,在需要时检索回来。它的运作方式和短期记忆截然不同——不是把完整对话历史都保留,而是只提取和存储关键信息。这种记忆方式适合跨会话的信息持久化——用户一个月前提到过某个偏好,现在还能被召回。

这两种记忆方式的工程分工很清晰:短期记忆负责当前会话的上下文连贯性,长期记忆负责跨会话的知识积累。两者协同,才能让模型既能“接住当下的对话”,又能“记住过去的约定”。

短期对话记忆的滑动窗口与智能裁剪
短期记忆的核心挑战是:对话历史越来越长,但每次请求的 Token 预算有限,不可能把所有历史都带上。

最直接的解决方案是滑动窗口——只保留最近 N 轮对话,超过窗口的直接丢弃。ChatGPT 5.5 在 API 调用时,对话历史的维护就是典型的滑动窗口模式。但简单的滑动窗口有个致命缺陷:当用户引用窗口之外的早期信息时,模型完全不知道你在说什么。

为了解决这个问题,ChatGPT 5.5 可能采用了更智能的裁剪策略。不只是按轮次裁剪,而是按信息的重要性裁剪。

关键信息提取是第一种策略。在对话进行中,模型会持续识别和标记关键信息——用户的核心诉求、已确认的决策、重要的背景信息。这些“高价值信息”即使超出了滑动窗口,也会被保留下来。

对话摘要生成是第二种策略。每隔若干轮对话,模型会自动生成一段对话摘要,将历史对话压缩为精炼的上下文。后续轮次用摘要替代原始历史,既能保持上下文连贯,又能大幅降低 Token 消耗。

话题切换检测是第三种策略。当用户明确切换话题时,旧话题的历史可以被更激进地裁剪。模型会保留当前话题的完整上下文,而对旧话题只保留关键结论。

长对话的性能衰减与应对之道
即使有智能裁剪,长对话仍然会面临性能衰减的问题。这不是“记不住”,而是“记得太贵了”。

每一轮新对话,模型都需要重新处理整个上下文窗口中的所有 Token。上下文越长,计算量越大,响应越慢。KV Cache 的大小也随着上下文增长而线性增长,显存占用越来越高。即使模型能力无损,成本也不允许无限长的对话。

ChatGPT 5.5 在这个问题上做了几项关键的工程优化。

KV Cache 压缩是核心手段。模型在处理长上下文时,会对早期对话的 KV Cache 做低精度量化——用更少的比特数存储,信息量略降但显存占用大幅减少。对于最近的对话,保留全精度 Cache 以确保当前话题的推理质量。

投机采样加速生成。用轻量草稿模型快速“起草”后续 Token,主模型做并行验证。在长对话场景下,投机采样的加速效果尤为明显,因为主模型每次需要处理的上下文更长。

渐进式摘要替换。当对话轮次超过一定阈值后,模型会用结构化摘要逐步替换早期完整历史,而不是一次性全部替换。这种渐进式策略保持了过渡的平滑性——用户几乎感知不到上下文的裁剪。

持久化存储与全局记忆
短期记忆解决了单次会话的上下文问题,但真正的“记忆”需要跨会话的持久化能力。

ChatGPT 5.5 本身不提供原生的持久化存储——每次新会话都是“从零开始”。但开发者可以通过外挂存储来实现长期记忆。

向量数据库是当前最主流的持久化方案。将用户的历史对话切片后存入向量数据库,下次对话时根据当前问题检索最相关的历史片段,注入 Prompt 作为上下文。这种方案适合需要跨会话记忆的场景。

关键信息图谱是更精细的方案。不只是存储对话片段,而是从对话中提取关键实体和关系——用户的身份标签、偏好、历史决策——构建用户级别的知识图谱。每次对话时,相关的图谱信息被注入 Prompt。

持久化存储的核心挑战不是“存什么”,而是“什么时候该记、什么时候该忘”。信息持久化需要考虑隐私与合规,信息时效性,以及存储成本与收益的平衡。

隐私与数据控制的平衡
记忆系统越强大,隐私风险也越高。一个能记住一切的 AI 助手,同时也是最了解你的“监视者”。

ChatGPT 5.5 在 API 层面提供了数据使用控制选项。在记忆系统的设计上,也需要遵循“选择性记忆”的原则。用户的敏感信息不应该被持久化存储,用户应该能随时清除自己的历史数据,记忆系统需要提供“被遗忘权”的技术实现。

总结
ChatGPT 5.5 的记忆系统,本质上是一次“选择性记忆”和“主动遗忘”的工程平衡。短期对话记忆通过智能裁剪和摘要生成,在保持上下文连贯的同时控制 Token 消耗。长对话性能衰减通过 KV Cache 压缩和投机采样来缓解。持久化存储依赖外挂的向量数据库或知识图谱来实现跨会话记忆。

对于开发者来说,理解记忆系统的双轨制有几个实际启示。会话内上下文管理要设计裁剪策略,跨会话记忆需要自行构建持久化层,隐私和数据控制是记忆系统不可忽视的工程维度。记忆系统的终极目标不是“记住一切”,而是“在该记住的时候记住,在该遗忘的时候遗忘”。ChatGPT 5.5 在这个方向上迈出了重要一步,但真正的“人机记忆协同”还远未实现。