发布了文章6 月 25 日
上个月,公司内部知识库问答系统突然全线报错。排查后发现是 Gemini 3.5 Flash 的 API 触发了限流——白天有个同事写了个批量文档处理的脚本,循环里忘了加延迟,瞬间打满了每分钟调用配额。而我们的错误处理策略只有一句“失败就重试”,结果重试请求叠加到限流之上,服...
发布了文章6 月 25 日
上个月提交了一个涉及十几个文件的MR,核心模块改动,需要过安全审查。上午提交,等到下午才收到审查结果——审查的同事上午在开会,午休后才腾出手来看。结果发现一个权限校验的遗漏,改完再提交,又等了一轮。
发布了文章6 月 25 日
接手过一个旧项目吗?没文档、没注释、原团队早已离职的那种。去年我碰到一个 Python 2.7 遗留系统,十万多行代码,142 个文件,11 个核心模块互相依赖。光读代码理清调用关系就用了我三天。后来在 KULAAI(dl.kulaai.cn) 上测 Grok 4.3 的长上下文能力时,突然想到...
发布了文章6 月 25 日
去年用 GPT-4 处理长文档时有个很明显的体感:文档超过八万字后,模型对中间部分的记忆明显变差,问它“第三章提到的配置参数是多少”,它经常说“文档里没提到”。更头疼的是长对话——多轮对话进行到十几轮时,API 延迟明显增加,Token 消耗也非线性上涨。
发布了文章6 月 25 日
年初还在纠结“要不要给项目接个视觉模型”,年中 Gemini 3.5 Flash 的原生多模态能力已经把图片、视频、音频全打包进一个接口了。在 KULAAI(dl.kulaai.cn) 上对比过几款模型的多模态 API 之后,发现 Gemini 3.5 Flash 在识别精度和响应速度之间平衡得最实用——284 to...
发布了文章6 月 24 日
算法题横评刚跑完,GPT-5.5 以 88% 通过率断层领先。但团队内部有人提了一个尖锐的问题:算法题考的是逻辑推理,真实业务需求考的是工程交付。一个订单查询接口,需要读得懂需求文档里的隐含约束、设计得了数据库 Schema、处理得了各种异常分支——这和解一道动态规划...
发布了文章6 月 24 日
有人说算法题不代表工程能力,但算法题最能暴露模型的基本功——逻辑推理是否严谨、边界条件是否遗漏、时空复杂度是否达标。在 KULAAI(dl.kulaai.cn) 上把四个模型 API 都接好之后,我们用 LeetCode 高频 100 题做了一次统一测试。不搞黑盒跑分,直接把每道题的正确...
发布了文章6 月 24 日
年初在 KULAAI(dl.kulaai.cn) 上把 GPT-5.5、Claude 4.8、Gemini 3.5、Grok 4.3 的 API 都注册了一遍,打开四个聊天窗口,盯着屏幕愣了十分钟——不知道该问谁。
发布了文章6 月 24 日
代码审查(CR)是团队开发的基本功,但单人审查总有盲区——逻辑漏洞容易看,安全风险和风格问题却常常被忽略。在 KULAAI(dl.kulaai.cn) 上接入 GPT-5.5、Claude 4.8、Gemini 3.5、Grok 4.3 之后,我们尝试把 CR 拆成多个审查视角,让每个模型负责自己最擅长的维度,...
发布了文章6 月 24 日
GPT-5.5 API 时,Function Calling 是绕不开的一环。用户问“上周运维工单的关闭率是多少”,模型必须能自己调数据库查询接口,而不是编一个数字回来。GPT-5.5 的工具调用准确率比上一代高出不少,但函数定义、参数 Schema、多工具编排的坑一个没少踩。以下是从零搭建...
发布了文章6 月 23 日
大模型安全领域有一个被严重低估的事实:最坚固的安全防线不是模型自身的安全对齐,而是应用层的 System Prompt 设计。ChatGPT 5.5 的安全对齐比上一代更强,但攻击者的手法也在同步进化——角色扮演、嵌套指令、编码混淆,这些越狱手段的核心目标都是同一个:覆盖或绕...
发布了文章6 月 23 日
ChatGPT 5.5 的“内心独白”技术,本质上是在模型生成最终答案之前,先在内部进行一次不展示给用户的深度推理。这种机制让模型能自我质疑、多角度验证、回溯修正,最终产出一个远比直接输出更严谨、更精炼的回答。它和展示完整思维链的“出声思考”恰恰相反——内心独白追...
发布了文章6 月 23 日
这几个月在 KULAAI(dl.877ai.cn)上把主力模型切到 GPT 5.5,经历了完整的迁移过程。KULAAI 的 API 网关支持按比例分流和模型热切换,让我能在同一套系统里同时跑新旧两个模型,灰度、回滚、故障演练全在线上完成,不用反复改代码部署。
发布了文章6 月 23 日
Prompt 工程的规模化瓶颈,不在于“能不能写出一个好 Prompt”,而在于“能不能让一组 Prompt 持续地、稳定地、可追溯地产出高质量结果”。当你的系统里只有几个 Prompt 时,手动维护没什么问题。但一旦 Prompt 数量增长到几十上百个、横跨多个业务场景、由多人协作维护...
发布了文章6 月 22 日
Grok 的能力之前聊了不少,但“怎么把它接到自己项目里”才是开发者最关心的问题。从拿到 API Key 到在 Kubernetes 里稳定运行,中间涉及的工程细节远比调用一个 /chat/completions 复杂。