七牛开发者 - SegmentFault 思否

SkillOpt 让你的 Skill 实现自进化

七牛开发者

6 月 24 日

阅读 3 分钟

上周，在介绍 bugfix 小工具 Superlog（这里需要公众号的链接）：[链接]，热心群友 Frank 提到了一个小工具 SkillOpt，表示它能把 Skill 当作模型来训练，基于方法论来训练你的 Skill。

工程实践｜Warp 的 Loop Engineering：Agent 如何自己改进 Skill？

七牛开发者

6 月 24 日

阅读 5 分钟

Warp 创始人 Zach Lloyd 给了一个更工程化的例子：用 GitHub Issues 做一个自我改进的 Issue 分诊系统。这个项目的核心思路是：先让 Agent 按照一个 Skill 去处理新 Issue，再让另一个 Agent 定期读取人类反馈，把这些反馈整理成可复用规则，最后通过 PR 更新原来的 Skill 文件。

TokenPilot：让 LLM Agent 长会话成本降 60%+ 的上下文管理

七牛开发者

6 月 24 日

阅读 6 分钟

今天解读的这篇论文叫 TokenPilot: Cache-Efficient Context Management for LLM Agents，作者来自浙江大学、电子科技大学、西安电子科技大学和 HomologyAI。

旧手机如何组建集群，跑点云计算？

七牛开发者

6 月 22 日

阅读 2 分钟

109

不知道大家如何处理自己退役下来的手机，可能大多数人都将它们放进了抽屉，在某个日子里拿出来感叹下它曾经服役的日子。Google Research 最近介绍了一个来自 UC San Diego 的研究项目：把退役智能手机里的主板拆出来，重新组装成一个小型计算集群，用来跑一些通用云计算任务。

周一上线 | SpaceX 收购 Cursor、支付宝进入 AI 时代、DeepSeek 完成 500 亿元融资

七牛开发者

6 月 22 日

阅读 8 分钟

这期的「周一上线」，有点像 AI 终于不满足于“坐在聊天框里等你提问”了。一边，Cursor、GitHub Copilot 继续把 AI Coding 推向开发工作台；另一边，支付宝、腾讯 WorkBuddy 也开始让 AI 真正替用户跑流程、找服务、发起支付。

世界杯进球那一刻，体育 App 怎么扛住流量高峰？

七牛开发者

6 月 17 日

阅读 6 分钟

219

世界杯期间，多数人看球的姿势都很相似：两支球队还在进攻阶段，手机可能只是放在一边听个声响；一旦进球出现，大家会立刻点开体育 App：有人刷新比分，有人打开文字直播，有人去看进球回放。当然，也有人冲进评论区庆祝这粒进球，或者把比分截图转发到群里。

世界杯一粒进球被吹掉，背后可能有多少 AI？

七牛开发者

6 月 16 日

阅读 4 分钟

339

要说世界杯球赛最让球迷抓狂的画面，当属进球之后，射门的球员已经冲向角旗区庆祝，观众已经站起来欢呼，转播画面却突然切到裁判：手指耳机，等待 VAR 确认。随后的几秒钟，或者几十秒后，大屏幕打出结果：越位，进球无效。

周一上线｜瑞幸把咖啡做进 CLI，Fable 5 短暂登场，Stonk Rider 骑上 K 线图

七牛开发者

6 月 15 日

阅读 7 分钟

283

一边，模型和开发者工具还在继续往真实工作流里走：Gemini 3.5 Live Translate 开始做近实时语音翻译，Kimi-K2.7-Code 开源，DiffusionGemma 探索更快的文本生成，Codex 和 Chrome DevTools 也在继续给 Agent 补浏览器能力。

面向 DeepSeek-V4 的 FlashMemory：长上下文 KV Cache 如何压到约十分之一

七牛开发者

6 月 15 日

阅读 7 分钟

295

在大模型自回归生成过程中，模型每生成一个 token，都需要参考此前已经读过的上下文。为了避免每一步都重新计算历史内容，推理系统会把历史 token 对应的 Key 和 Value 缓存下来。上下文越长，这部分缓存就越大。到了 128K、500K 甚至更长的上下文，KV Cache 往往会成为长上下文服务里最沉重的一笔显存开销。

Codex 实践系列 Vol.02：让 Codex 读懂开源项目 Typer

七牛开发者

6 月 15 日

阅读 8 分钟

267

在 Codex 系列第一篇（上篇），我们用一个很小的本地脚本，跑通了 Codex CLI 的基本流程：进入项目目录，启动 Codex，然后让它读文件、写代码、跑命令。

世界杯开幕了，手把手教你做个看球小工具

七牛开发者

6 月 15 日

阅读 11 分钟

340

这次我们不打算重新造一个“世界杯赛程 App”，而是借这个足够轻、足够具体的场景，做一个可以跑起来的小工具：用 JSON 存赛程，用 Python 查询球队和日期，再把比赛所在地时间转换成北京时间和美东时间。

Skills 是什么？Claude 官方教你做一个好用的 Skill

七牛开发者

6 月 11 日

阅读 4 分钟

388

Claude Code 团队上周写了一篇文章，来讲述他们在内部是如何使用 Skills 的。借着他们这篇分享，我们来讲讲 Skill 是什么，以及如何参考 Claude Code 团队的经验来打造我们自己的好用 Skill。

AI Agent 的 4 个工程关键词：Prompt、Context、Loop、Harness 到底是什么？

七牛开发者

6 月 11 日

阅读 4 分钟

417

这周，AI Agent 圈又出现了一个新词：Loop Engineering。它看起来有点陌生，但如果放到我们和 AI 的交互变化里看，就会自然很多。

为什么Analytics Agent 总答错？来自 Anthropic 的数据分析最佳实践

七牛开发者

6 月 10 日

阅读 4 分钟

320

从结果看，他们似乎已经把数据分析 Agent （Analytics Agent）跑通了。但在实践过程中，Anthropic 发现了一个反常识的结论：数据分析 Agent 最大的挑战是 Agent 到底知不知道自己查的是哪张表？它有没有理解正确的业务定义？它知不知道算出来的答案到底可不可信？

从 Claude Code 动态工作流看 Agent Harness 设计

七牛开发者

6 月 10 日

阅读 7 分钟

288

Claude Code 最近推出了一个很值得关注的新能力：Dynamic Workflows（动态工作流）。有了它，Claude Code 就能动态地写出一套自己的多 Agent Harness。Claude 可以根据当前任务，生成一段 JavaScript 工作流来调度多个子 Agent、分配上下文、选择模型、运行验证流程，并把结果汇总回来。

本地模型为什么能跑起来？从 llama.cpp 量化说起

七牛开发者

6 月 9 日

阅读 5 分钟

405

上周，Google 发布了 Gemma 4 12B。这个模型最大的亮点是，官方说它可以在 16GB VRAM 或 unified memory 的消费级笔记本上本地运行。

给在校生的一份 AI 使用小指南

七牛开发者

6 月 8 日

阅读 4 分钟

441

如果你正在学编程，可能有听过像是 AI 编程、AI 助手、AI Agent 这些名词，到底它们是什么呢？刚开始编程的同学们接触这些名词的时候，可能会有点懵逼：

这 3 个开源小工具，帮你让 Coding Agent 少吃点 Token

七牛开发者

6 月 8 日

阅读 4 分钟

378

大家用 Claude Code、Cursor、Codex 这类 AI 编程工具时，应该都遇到过这种情况：只是想让 Agent 改个小功能，结果上下文很快就见底了。其实，大多数时候 token 消耗得快，并不一定来自特别复杂的推理，通常是 Agent 常用到的小动作带来的。

周一上线 | Claude 救活 TouchBar，硅基圣经面世，Agent 开始点亮开发者桌面

七牛开发者

6 月 8 日

阅读 8 分钟

437

一边，MiniMax M3、Cosmos 3、Gemma 4、MAI 等新模型密集发布，Agent、Coding、多模态、本地推理和物理世界模型也轮番上场。Codex 再迎新升级，近期还将整合进 ChatGPT。

Codex 实践系列 Vol.01：从跑通 CLI 开始，看懂 Codex 怎么工作

七牛开发者

6 月 5 日

阅读 7 分钟

687

相比 Claude Code，Codex 对很多人来说有一个很直接的优势：它可以直接使用 ChatGPT 订阅。如果你本来就在用 ChatGPT，那上手成本会低很多。再加上 Codex 这段时间更新很快，后面也会越来越值得关注。

专访 Mainline 作者们：聊聊从代码协作到意图协作

七牛开发者

6 月 5 日

阅读 8 分钟

393

前段时间，小七和 Mainline 的两位开发者豁如、钰泽聊了聊这个项目，也聊了聊它背后的思考和开发故事。本文便是这次专访的整理稿。开始之前，先介绍下 Mainline 是什么。它是一个围绕「工程意图」构建的协作工具。地址：github.com/mainline-org/mainlineMainline 关注的问题是：当团队越来越多地使用 AI Coding，代码生...

从 Subagent 到 Agent Team：多 Agent 系统里的两种协作方式

七牛开发者

6 月 4 日

阅读 4 分钟

366

以前我们常说“让一个 Agent 帮我完成任务”，听起来像是从输入到输出一条线走完。但在开发场景里，很多任务其实会被拆成一串步骤：读代码、查接口、写实现、补测试、看日志、做 Review。其实，上面的每一步都不难，麻烦的是这些信息会不断地堆进同一个上下文里。

周三头条｜从 Claude 案例看 Coding Agent 的计划层设计

七牛开发者

6 月 3 日

阅读 3 分钟

437

CodeRabbit 是一家 AI Code Review 平台。现在每周会 Review 超过 200 万个 PR，覆盖 15,000 多个客户。正是这个面对大量 AI 生成代码的场景，让 CodeRabbit 观察到一个现象：很多程序的失败并不发生在“代码写不出来”，而是发生在更上游的需求理解阶段。

最近关于 Agent 自进化的讨论越来越多。今天我们来看论文「MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems」。论文中提出了一个名为 MOSS 的源码级自进化系统，面向生产级 Agent 基座，尝试把 Agent 的自我改进范围从 prompt、skill、memory 等文本层，推进到源码级重写，也就是直接...