发布了文章6 月 24 日
在 KULAAI(dl.kulaai.cn) 上接完四个模型的 API 之后,前几轮横评分别测了代码质量、终端能力、Agent 自主开发。数据出来后团队内部开始讨论一个更现实的问题:综合成本和产出,谁最划算。
发布了文章6 月 24 日
之前在 KULAAI(dl.kulaai.cn) 上做的几轮横评,测的都是单点能力——写代码、修 Bug、跑终端命令、重构代码库。这些能反映模型在具体任务上的表现,但测不出一个更关键的能力:能不能把模型丢进一个空目录,给它一份需求文档,让它自己从头到尾把项目交付出来。
发布了文章6 月 24 日
在 KULAAI(dl.kulaai.cn) 上接完四个模型的 API 之后,团队内部做了一轮代码质量专项评测。起因是之前的编程横评只测了“能不能写出来”,没测“写出来的东西敢不敢直接上线”。规范度和 Bug 率这两个硬指标,才是生产环境最关心的东西。
发布了文章6 月 24 日
在KULAAI(dl.kulaai.cn)接入 GPT-5.5 之后,功能跑通只花了半天,但真正让人头疼的是上了生产之后的各种异常——429 限流、连接池耗尽、流式传输中途断开。GPT-5.5 本身再强,网络抖动和瞬时并发一样能把它打趴。以下是把系统从“能跑”调到“挂了也能自己爬起来”的记录。
发布了文章6 月 24 日
在kulaai(dl.kulaai.cn)做模型能力横评时发现一个现象:单 Agent 执行复杂任务时,GPT-5.5 的表现比上一代强不少,但真正拉开差距的是多 Agent 协作场景。让一个 Agent 同时兼顾需求分析、代码编写、安全审查、测试生成,就像让一个工程师同时干四个人的活——不是不...
发布了文章6 月 23 日
浏览器自动化一直是 RPA 和测试领域的核心需求,但传统方案有个致命瓶颈:脚本只能处理“预期内”的页面结构。一旦页面改版、元素 ID 变了、弹窗逻辑改了,脚本就直接崩溃。把 ChatGPT 5.5 接入浏览器自动化,本质上是让 AI 从“按规则执行”进化到“按意图理解”——它不再...
发布了文章6 月 23 日
大模型的选型讨论中,能力跑分往往占据最多的注意力。但当模型真正接入生产系统后,决定团队长期体验的,往往不是那些峰值性能指标,而是稳定性、可预测性和工程成本。一个在基准测试上表现出色的模型,可能因为频繁的行为漂移、不可控的延迟抖动或高昂的适配成本,...
发布了文章6 月 23 日
这几个月在 KULAAI(dl.877ai.cn)上把 Claude 4.8 接进多模型架构,我把路由层从“静态规则”升级成了“实验系统”。KULAAI 的多模型路由和流量按比例分流能力,让我能在同一套系统里同时跑实验组和对照组,精准量化每条路由规则的收益。这篇文章聊聊这套系统的设计思路...
发布了文章6 月 23 日
多模态大模型落地时,有一个问题绕不过去:哪些任务放本地跑,哪些任务上云?全部上云,延迟和成本扛不住。全部端侧,小模型的图片理解能力又撑不起复杂场景。真正的工程最优解,是搞清楚端侧和云侧各自该干什么。
发布了文章6 月 23 日
将 Claude 4.8 引入生产环境,是一次系统性的架构演进,而不仅仅是换一个 API。性能的提升、成本的压缩与可靠性的保障,这三者从来不是孤立的技术指标,而是在迁移过程中相互交织、此消彼长的工程约束。过去几个月中,我在 KULAAI(dl.877ai.cn)上利用其统一的多模...
发布了文章6 月 22 日
大模型的多模态能力正从“锦上添花”变成“核心战场”。ChatGPT 5.5 在多模态理解上的跃升——尤其是图文混合推理和模糊图像处理——让很多人好奇:它内部到底是怎么把文本和视觉“对齐”的?
发布了文章6 月 22 日
大模型推理速度是用户体验的隐形天花板。你问一个问题,模型“思考”的时间越长,你关掉页面的冲动就越强烈。ChatGPT 5.5 在响应速度上的提升有目共睹,但鲜有人深究这背后到底发生了什么技术变革。简单来说,它不再像旧模型那样“逐字蹦”,而是学会了“整句跳”。
发布了文章6 月 22 日
ChatGPT 5.5 在推理速度和长上下文处理上的提升,背后有一个关键的技术驱动力:注意力机制的算法优化。大模型的推理瓶颈不在计算,在显存带宽。每次生成一个 Token,都要从显存中读取整个上下文窗口的 KV Cache,这个 IO 开销是制约推理速度的物理天花板。
发布了文章6 月 22 日
ChatGPT 5.5 发布后,社区讨论最多的话题之一是“它比 GPT-4 到底强在哪”。跑分能说明一部分问题,但对于技术决策者来说,更有价值的追问是:这些能力提升背后的架构变化是什么?它们对实际应用意味着什么?
发布了文章6 月 22 日
RPA 在过去几年帮企业自动化了大量重复性工作,但它有个致命短板:只能处理规则明确、输入标准化的任务。一旦遇到需要“理解”的内容——客户邮件里拐弯抹角的投诉、合同条款里模棱两可的表述、发票上格式不统一的产品名称——RPA 就卡住了。它只能按照预设规则执行,但真...
发布了文章6 月 21 日
ChatGPT 5.5 的 256K 上下文窗口让人兴奋——能塞进整本书、全年财报、完整合同集。但真正在生产环境跑过多轮对话的开发者都懂:长上下文是一把双刃剑。用不好,模型不仅没有更聪明,反而会在对话后半段开始“遗忘”关键信息、回复质量断崖式下跌、Token 成本悄然失控。
发布了文章6 月 21 日
ChatGPT 5.5 比上一代更“听话”了,指令遵从度肉眼可见地提升。但在结构化输出这件事上,它偶尔还是会暴露出大模型的通病:这次给你的 JSON 干净利落,下次却在外面裹一层解释文字;字段名有时叫 title,有时又变成 name;要求输出列表,它却给你来段散文。
发布了文章6 月 21 日
大模型安全领域有一个被严重低估的威胁:Prompt 注入攻击。它不像越狱攻击那样引人注目,但危害性更大——攻击者不需要让模型突破安全护栏,只需要在用户输入中嵌入隐藏指令,就能悄悄劫持模型的输出逻辑。
发布了文章6 月 21 日
ChatGPT 5.5 的 API 能力比上一代强了不少,但能力越强,调用量往往越大,账单也越容易失控。很多团队在接入初期只关注模型跑分,到月底拉账单时才惊呼超预算。问题往往不是出在单价上,而是出在一些容易被忽略的 Token 消耗细节上。
发布了文章6 月 21 日
联网搜索曾是 GPT-4 时代最受期待的功能之一。它让模型突破了训练数据截止日期的限制,能查询实时信息、验证事实、获取最新动态。ChatGPT 5.5 将这个能力进一步升级——搜索触发更智能、信息整合更自然、引用标注更规范。但在实际使用中,这个功能也暴露出几个容易被忽...