发布了文章6 月 25 日
上个月用 Claude 4.8 写了一段数据清洗脚本,生成完它信誓旦旦地说“这段代码能跑”。我复制进终端一跑,报错——少了个依赖包,两个变量名写错了,还有个 API 的参数在最新版里已经废弃了。修了十几分钟才跑通。
发布了文章6 月 25 日
上个月给公司金融部门做了一套内部工具,用 GPT-5.5 写核心代码,质量没问题。但金融合规审查时发现几个术语被理解偏了——“头寸”被当成“职位”、“敞口”被理解成“接口开放”。模型不是能力不行,是它不知道这个行业的黑话该怎么翻译。
发布了文章6 月 25 日
去年用 GPT-4 做代码审查时有个很深的印象:它能发现大部分逻辑问题,但偶尔会漏掉关键的边界条件,安全审计的检出率也只有七成左右。今年在 KULAAI(dl.kulaai.cn) 上接入 GPT-5.5 之后,一个明显的变化是模型的“确定性”大幅提升——同样的指令重复执行十次,输出一...
发布了文章6 月 25 日
上个月把批量文档处理任务从 GPT-5.5 切到了 Gemini 3.5 Flash。看中的是它的两个数据:生成速率 284 token/s,输入单价不到 GPT-5.5 的一半。第一个月跑下来,单次调用成本确实降了,但总账单反而涨了 15%。
发布了文章6 月 25 日
公司内部沉淀了上千份技术文档、运维手册和架构决策记录。新人入职翻文档翻到怀疑人生,老员工每天重复回答同样的问题。去年用GPT-4o搭过一版知识库问答,检索准确率还行,但有两个致命伤:安全审计场景下偶尔编造答案,权限控制粒度不够。
发布了文章6 月 24 日
前几轮横评覆盖了代码质量、Bug修复、重构能力、终端操作,但有一个工程维度一直没测:吞吐量。企业级场景里,不是一个需求写一份代码,而是批量生成几十个接口的文档、批量写上百条数据清洗脚本、批量补几百个单元测试。这种场景下,模型能不能扛住连续高强度的调用...
发布了文章6 月 24 日
前几轮横评里测过重构能力——GPT-5.5 在 4.2 万行代码库上的连锁 Bug 只有 1 个。但那轮测试的代码虽然老旧,结构还算清晰。真实世界的“祖传代码”比这残酷得多:一个函数几百行、全局变量满天飞、注释和代码完全对不上、没人敢动因为动一处炸一片。
发布了文章6 月 24 日
上一轮 Terminal-Bench 测的是标准场景下的正确率——GPT-5.5 以 85% 成功率排第一。但在真实生产环境里,命令执行失败不可怕,可怕的是失败之后模型不知道怎么救。
发布了文章6 月 24 日
前几轮横评在常规业务场景下跑完,GPT-5.5 断层领先。但生产环境不会永远按标准剧本走——高并发下的竞态条件、超过 50 个文件的依赖链、掺杂了大量噪音的模糊需求、带着攻击意图的恶意输入。这些极端场景才是模型真正的试金石。在 KULAAI(dl.kulaai.cn) 上把四款模...
发布了文章6 月 24 日
GPT-5.5 API,功能跑通只是第一步。上了生产之后,真正的麻烦才来:多个业务线抢配额、API Key 权限失控、月底账单出来谁都说不清每一笔调用是谁花的。这些问题不解决,AI 服务就不是提效工具,而是定时炸弹。以下是团队花了两个月踩坑后沉淀下来的权限与配额管理方案。
发布了文章6 月 23 日
Prompt 正在从“随手写的指令”变成“可以交易的数字资产”。一年前,写 Prompt 还靠直觉和经验口口相传;现在,一套高质量的 Prompt 模板可以在提示词市场上卖出不错的价格,甚至有人开始把 Prompt 工程当作一门正经的手艺来打磨。
发布了文章6 月 23 日
让 AI 写出符合特定风格的内容,一直是内容创作者最头疼的问题。你脑子里有一个清晰的“调性”——公众号要温暖接地气,技术文档要严谨克制,小红书要活泼带 emoji——但 AI 生成的内容总是差那么一口气。要么过于正式像新闻稿,要么过于随意像流水账,很难稳定地命中你想...
发布了文章6 月 23 日
GPT 5.5 的多模态能力在跑分上很漂亮——图文理解、表格识别、模糊图像处理,每一项都有明显提升。但跑分和落地之间,隔着一个巨大的工程鸿沟:输入处理链路的质量,直接决定了多模态输出的准确率上限。
发布了文章6 月 23 日
兄弟们,不知道你们有没有经历过 UI 走查——设计师和开发坐一起,对着屏幕一个一个像素抠:这个按钮没对齐,那个字体大小差了一号,这个颜色跟设计稿不一致……一搞就是一下午,眼睛都快瞎了。更扯的是,就这样还有漏掉的,上线后用户截图发群里“这啥玩意儿”,尴尬得脚...
发布了文章6 月 22 日
智能客服是 LLM 最典型的落地场景,但直接拿通用模型接客服,翻车率极高——不知道产品细节、记不住对话历史、遇到知识库外的问题就开始编。解决这个问题的标准方案是 RAG(检索增强生成):先检索相关知识,再让模型基于知识回答。