发布了文章6 月 25 日
这种需求看似简单,实际藏着大量隐性工作——服务器状态检查要覆盖哪些指标?问题分类的标准是什么?负责人映射关系从哪取?巡检失败怎么办?以前纯人工开发,光拆任务就要半天。
发布了文章6 月 25 日
前段时间在 KULAAI(dl.kulaai.cn) 上试 GPT-5.5 的代码生成能力,偶然发现它写 API 文档也是一把好手。把接口代码丢给它,几十秒就生成一份格式标准的文档。后来干脆把它接进了团队的文档工作流,新接口开发完自动出文档,人工只需审核几处关键描述。以下是摸索出...
发布了文章6 月 25 日
在 KULAAI(dl.kulaai.cn) 上接入 Gemini 3.5 Flash 之后,多数开发者只关注 Temperature 和 Max Tokens,很少有人注意到 Thinking Level 这个参数。但实测数据表明,同样的 Prompt,用错思考档位要么多花 40% 的 Token,要么在关键边界条件上出现遗漏。
发布了文章6 月 25 日
上周把公司支付模块的审计逻辑从 GPT-5.5 切到了 Claude 4.8。原因很简单:安全审计这活,GPT-5.5 检出率 75%,Claude 4.8 能做到 100% 零误报。支付模块容不得漏检,这个切换没得商量。
发布了文章6 月 25 日
两周前给公司财务系统加一个报销审批模块,用 Grok 4.3 的单 Agent 模式扛了两天,最终交付质量勉强能用,但过程极其痛苦。Agent 在需求拆解时逻辑清晰,写到审批流程的状态机就开始犯迷糊——它把“并行会签”实现成了“串行审批”,测试时被我抓到;修完这个 Bug,它又把...
发布了文章6 月 25 日
“帮我查一下上个月每个品类的退款率,按降序排列,下午开会要用。”这是运营主管第三次在钉钉上找我,每次都是类似的临时数据需求。以前我停下手头的开发任务,打开数据库、写 SQL、出结果、截图发过去,一来二去半小时没了。
发布了文章6 月 24 日
在 KULAAI(dl.kulaai.cn) 上把 GPT-5.5 Agent 推到生产环境之后,遇到的核心问题不再是“能不能跑通”,而是“跑不稳的时候怎么量化、怎么调”。Agent 的任务完成率不是一个数字能概括的——拆解是否合理、工具是否选对、异常能不能自救,每个环节都可能拉低最终结果。以...
发布了文章6 月 24 日
在 KULAAI(dl.kulaai.cn) 上折腾 GPT-5.5 的 Agent 时,第一个遇到的生产级难题不是工具调用,不是规划能力,而是记忆。用户上周告诉过 Agent 项目用的是 Java 17,这周再问它又推荐 Java 11 的写法。每次会话都是全新开始,Agent 像失忆一样从头问起。GPT-5.5 的...
发布了文章6 月 24 日
在 KULAAI(dl.kulaai.cn) 上测 GPT-5.5 的 Agent 能力时,最先验证的就是自主规划——让模型面对一个模糊任务,自己拆成步骤、排好顺序、一步步执行。上一代模型做这件事,三步之内必跑偏,不是拆解太粗就是把无关的事塞进来。GPT-5.5 的规划能力和指令遵循度提升之...
发布了文章6 月 24 日
在 KULAAI(dl.kulaai.cn) 上测 GPT-5.5 的工具调用时,发现一个分水岭:基础的工具调用只是“模型说调哪个函数,你去执行”,但真正的 Agent 需要更进一步——模型自己决定什么时候联网搜索、什么时候查数据库、什么时候跑一段代码来验证自己的推理。GPT-5.5 的指令遵...
发布了文章6 月 24 日
在 KULAAI(dl.kulaai.cn) 上做模型能力横评时发现一个现象:单 Agent 执行复杂任务时,GPT-5.5 的表现比上一代强不少,但真正拉开差距的是多 Agent 协作场景。让一个 Agent 同时兼顾需求分析、代码编写、安全审查、测试生成,就像让一个工程师同时干四个人的活——不...
发布了文章6 月 23 日
单模型时代正在落幕。过去一年,大模型应用的竞争逻辑发生了根本性变化——从“选一个最强的模型”转向“让多个模型高效协作”。GPT 5.5 的发布不只是模型能力的提升,更是一次应用架构的范式升级:它不再被设计为一个孤立的全能大脑,而是成为一个编排中枢,能够规划任务...
发布了文章6 月 23 日
大模型的性能评测很容易陷入一个误区:跑几个标准 Benchmark,拉一组延迟和吞吐数字,然后得出“A 比 B 快 20%”的结论。但这类评测往往和真实业务场景相去甚远——实际应用中的 Prompt 长度、并发模式、输出行为特征,和标准测试集完全不同。
发布了文章6 月 23 日
多模态能力已经不再是大模型的加分项,而是生产环境的入场券。GPT 5.5 在图文混合推理、表格识别和模糊图像处理上的提升有目共睹,但“能看懂图”和“能用图干活”之间,隔着一条很宽的工程鸿沟。真正的落地挑战不在于模型能识别多少种物体,而在于如何让多模态输出变得...
发布了文章6 月 23 日
模型迁移中最容易翻车的不是能力适配,而是那些“看不见”的基础设施——缓存突然集体失效、长对话中模型像失忆一样遗忘关键信息、上下文窗口明明够大但成本却悄然失控。这些坑在测试环境几乎不会暴露,因为测试不会模拟真实用户的长对话、高频重复请求和复杂上下文依赖。
发布了文章6 月 23 日
当新一代模型发布时,技术社区总会弥漫一种微妙的焦虑——GPT 5.5都出来了,我们还在用上一代,是不是落后了?这种“升级冲动”往往比任何理性的技术评估都更有驱动力,也更容易让团队做出代价高昂的决策。
发布了文章6 月 22 日
对话越聊越长,模型却“不记得”半小时前说过的话——这是所有多轮对话系统的核心痛点。ChatGPT 5.5 在长对话中的上下文管理能力有了显著提升,但它的“记忆系统”到底是如何工作的?短期对话记忆和持久化存储之间又是如何协调的?
发布了文章6 月 22 日
使用大模型最让人抓狂的,往往不是它“能力不够”,而是它“不听话”。让它用 JSON 格式输出,它非要在前面加一段解释文字。让它控制在 200 字以内,它总是偷偷多写几十字。让它扮演客服角色,聊到一半它突然开始“理性分析”。这种“指令漂移”是生产环境中的大忌。
发布了文章6 月 22 日
从 GPT-3 到 GPT-4,再到 ChatGPT 5.5,大模型的参数规模一直在膨胀。每代新品发布,社区里总会响起同一个问题:更大了,就一定更好了吗?这个问题的答案,远不是“是”或“否”那么简单。
发布了文章6 月 22 日
用户对 AI 应用的耐心阈值正在不断降低。一个对话请求发出去,如果两秒钟屏幕上还是一片空白,大部分用户会直接关掉页面。ChatGPT 5.5 在响应速度上的提升有目共睹,但鲜有人深究这背后到底发生了什么技术变革。首 Token 延迟——从用户发送请求到屏幕上出现第一个字的...