SkillOpt 让你的 Skill 实现自进化

6 月 24 日
阅读 3 分钟
78
上周,在介绍 bugfix 小工具 Superlog(这里需要公众号的链接):[链接],热心群友 Frank 提到了一个小工具 SkillOpt,表示它能把 Skill 当作模型来训练,基于方法论来训练你的 Skill。

工程实践|Warp 的 Loop Engineering:Agent 如何自己改进 Skill?

6 月 24 日
阅读 5 分钟
68
Warp 创始人 Zach Lloyd 给了一个更工程化的例子:用 GitHub Issues 做一个自我改进的 Issue 分诊系统。这个项目的核心思路是:先让 Agent 按照一个 Skill 去处理新 Issue,再让另一个 Agent 定期读取人类反馈,把这些反馈整理成可复用规则,最后通过 PR 更新原来的 Skill 文件。

TokenPilot:让 LLM Agent 长会话成本降 60%+ 的上下文管理

6 月 24 日
阅读 6 分钟
61
今天解读的这篇论文叫 TokenPilot: Cache-Efficient Context Management for LLM Agents,作者来自浙江大学、电子科技大学、西安电子科技大学和 HomologyAI。
封面图

旧手机如何组建集群,跑点云计算?

6 月 22 日
阅读 2 分钟
109
不知道大家如何处理自己退役下来的手机,可能大多数人都将它们放进了抽屉,在某个日子里拿出来感叹下它曾经服役的日子。Google Research 最近介绍了一个来自 UC San Diego 的研究项目:把退役智能手机里的主板拆出来,重新组装成一个小型计算集群,用来跑一些通用云计算任务。

周一上线 | SpaceX 收购 Cursor、支付宝进入 AI 时代、DeepSeek 完成 500 亿元融资

6 月 22 日
阅读 8 分钟
98
这期的「周一上线」,有点像 AI 终于不满足于“坐在聊天框里等你提问”了。一边,Cursor、GitHub Copilot 继续把 AI Coding 推向开发工作台;另一边,支付宝、腾讯 WorkBuddy 也开始让 AI 真正替用户跑流程、找服务、发起支付。
封面图

世界杯进球那一刻,体育 App 怎么扛住流量高峰?

6 月 17 日
阅读 6 分钟
219
世界杯期间,多数人看球的姿势都很相似:两支球队还在进攻阶段,手机可能只是放在一边听个声响;一旦进球出现,大家会立刻点开体育 App:有人刷新比分,有人打开文字直播,有人去看进球回放。当然,也有人冲进评论区庆祝这粒进球,或者把比分截图转发到群里。
封面图

世界杯一粒进球被吹掉,背后可能有多少 AI?

6 月 16 日
阅读 4 分钟
339
要说世界杯球赛最让球迷抓狂的画面,当属进球之后,射门的球员已经冲向角旗区庆祝,观众已经站起来欢呼,转播画面却突然切到裁判:手指耳机,等待 VAR 确认。随后的几秒钟,或者几十秒后,大屏幕打出结果:越位,进球无效。
封面图

周一上线|瑞幸把咖啡做进 CLI,Fable 5 短暂登场,Stonk Rider 骑上 K 线图

6 月 15 日
阅读 7 分钟
283
一边,模型和开发者工具还在继续往真实工作流里走:Gemini 3.5 Live Translate 开始做近实时语音翻译,Kimi-K2.7-Code 开源,DiffusionGemma 探索更快的文本生成,Codex 和 Chrome DevTools 也在继续给 Agent 补浏览器能力。
封面图

面向 DeepSeek-V4 的 FlashMemory:长上下文 KV Cache 如何压到约十分之一

6 月 15 日
阅读 7 分钟
295
在大模型自回归生成过程中,模型每生成一个 token,都需要参考此前已经读过的上下文。为了避免每一步都重新计算历史内容,推理系统会把历史 token 对应的 Key 和 Value 缓存下来。上下文越长,这部分缓存就越大。到了 128K、500K 甚至更长的上下文,KV Cache 往往会成为长上下文服务里最沉重的一笔显存开销。
封面图

Codex 实践系列 Vol.02:让 Codex 读懂开源项目 Typer

6 月 15 日
阅读 8 分钟
267
在 Codex 系列第一篇(上篇),我们用一个很小的本地脚本,跑通了 Codex CLI 的基本流程:进入项目目录,启动 Codex,然后让它读文件、写代码、跑命令。
封面图

世界杯开幕了,手把手教你做个看球小工具

6 月 15 日
阅读 11 分钟
340
这次我们不打算重新造一个“世界杯赛程 App”,而是借这个足够轻、足够具体的场景,做一个可以跑起来的小工具:用 JSON 存赛程,用 Python 查询球队和日期,再把比赛所在地时间转换成北京时间和美东时间。
封面图

Skills 是什么?Claude 官方教你做一个好用的 Skill

6 月 11 日
阅读 4 分钟
388
Claude Code 团队上周写了一篇文章,来讲述他们在内部是如何使用 Skills 的。借着他们这篇分享,我们来讲讲 Skill 是什么,以及如何参考 Claude Code 团队的经验来打造我们自己的好用 Skill。
封面图

AI Agent 的 4 个工程关键词:Prompt、Context、Loop、Harness 到底是什么?

6 月 11 日
阅读 4 分钟
417
这周,AI Agent 圈又出现了一个新词:Loop Engineering。它看起来有点陌生,但如果放到我们和 AI 的交互变化里看,就会自然很多。
封面图

为什么Analytics Agent 总答错?来自 Anthropic 的数据分析最佳实践

6 月 10 日
阅读 4 分钟
320
从结果看,他们似乎已经把数据分析 Agent (Analytics Agent)跑通了。但在实践过程中,Anthropic 发现了一个反常识的结论:数据分析 Agent 最大的挑战是 Agent 到底知不知道自己查的是哪张表?它有没有理解正确的业务定义?它知不知道算出来的答案到底可不可信?
封面图

从 Claude Code 动态工作流看 Agent Harness 设计

6 月 10 日
阅读 7 分钟
288
Claude Code 最近推出了一个很值得关注的新能力:Dynamic Workflows(动态工作流)。有了它,Claude Code 就能动态地写出一套自己的多 Agent Harness。Claude 可以根据当前任务,生成一段 JavaScript 工作流来调度多个子 Agent、分配上下文、选择模型、运行验证流程,并把结果汇总回来。
封面图

本地模型为什么能跑起来?从 llama.cpp 量化说起

6 月 9 日
阅读 5 分钟
405
上周,Google 发布了 Gemma 4 12B。这个模型最大的亮点是,官方说它可以在 16GB VRAM 或 unified memory 的消费级笔记本上本地运行。
封面图

给在校生的一份 AI 使用小指南

6 月 8 日
阅读 4 分钟
441
如果你正在学编程,可能有听过像是 AI 编程、AI 助手、AI Agent 这些名词,到底它们是什么呢?刚开始编程的同学们接触这些名词的时候,可能会有点懵逼:
封面图

这 3 个开源小工具,帮你让 Coding Agent 少吃点 Token

6 月 8 日
阅读 4 分钟
378
大家用 Claude Code、Cursor、Codex 这类 AI 编程工具时,应该都遇到过这种情况:只是想让 Agent 改个小功能,结果上下文很快就见底了。其实,大多数时候 token 消耗得快,并不一定来自特别复杂的推理,通常是 Agent 常用到的小动作带来的。
封面图

周一上线 | Claude 救活 TouchBar,硅基圣经面世,Agent 开始点亮开发者桌面

6 月 8 日
阅读 8 分钟
437
一边,MiniMax M3、Cosmos 3、Gemma 4、MAI 等新模型密集发布,Agent、Coding、多模态、本地推理和物理世界模型也轮番上场。Codex 再迎新升级,近期还将整合进 ChatGPT。
封面图

Codex 实践系列 Vol.01:从跑通 CLI 开始,看懂 Codex 怎么工作

6 月 5 日
阅读 7 分钟
687
相比 Claude Code,Codex 对很多人来说有一个很直接的优势:它可以直接使用 ChatGPT 订阅。如果你本来就在用 ChatGPT,那上手成本会低很多。再加上 Codex 这段时间更新很快,后面也会越来越值得关注。
封面图

专访 Mainline 作者们:聊聊从代码协作到意图协作

6 月 5 日
阅读 8 分钟
393
前段时间,小七和 Mainline 的两位开发者豁如、钰泽聊了聊这个项目,也聊了聊它背后的思考和开发故事。本文便是这次专访的整理稿。开始之前,先介绍下 Mainline 是什么。它是一个围绕「工程意图」构建的协作工具。地址:github.com/mainline-org/mainlineMainline 关注的问题是:当团队越来越多地使用 AI Coding,代码生...
封面图

从 Subagent 到 Agent Team:多 Agent 系统里的两种协作方式

6 月 4 日
阅读 4 分钟
366
以前我们常说“让一个 Agent 帮我完成任务”,听起来像是从输入到输出一条线走完。但在开发场景里,很多任务其实会被拆成一串步骤:读代码、查接口、写实现、补测试、看日志、做 Review。其实,上面的每一步都不难,麻烦的是这些信息会不断地堆进同一个上下文里。
封面图

周三头条|从 Claude 案例看 Coding Agent 的计划层设计

6 月 3 日
阅读 3 分钟
437
CodeRabbit 是一家 AI Code Review 平台。现在每周会 Review 超过 200 万个 PR,覆盖 15,000 多个客户。正是这个面对大量 AI 生成代码的场景,让 CodeRabbit 观察到一个现象:很多程序的失败并不发生在“代码写不出来”,而是发生在更上游的需求理解阶段。
封面图

让生产级 Agent 实现自进化:MOSS 的源码级实验

6 月 2 日
阅读 7 分钟
399
最近关于 Agent 自进化的讨论越来越多。今天我们来看论文「MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems」。论文中提出了一个名为 MOSS 的源码级自进化系统,面向生产级 Agent 基座,尝试把 Agent 的自我改进范围从 prompt、skill、memory 等文本层,推进到源码级重写,也就是直接...
封面图

标星近 15k,这个高颜值 Coding Agent 如何用 DeepSeek 缓存降低会话成本

6 月 1 日
阅读 4 分钟
481
可能现在大家对 Coding Agent 的期待都不低。毕竟它能读代码、改文件、跑命令,已经很接近“把一个开发助手放进项目里”的想法。但真正用过 Coding Agent 的小伙伴应该已经发现一个很现实的问题:只要任务稍微长一点,成本就很难忽略。
封面图

周一上线|Codex 工程师教你自我蒸馏,吉他遥控贪吃蛇,Kindle 再就业成 Claude 仪表盘

6 月 1 日
阅读 7 分钟
496
一边,模型和 AI 编程工具还在继续往 Agent 方向推:Claude Opus 4.8 发布,xAI 把 Grok Build 0.1 放进 API,阶跃星辰也继续更新模型和开发者工具。
封面图

专访 Bub 作者们:如何开发一个好记性又懂人的 Agent

5 月 31 日
阅读 14 分钟
387
上周发布了搭建飞书群聊机器人的实践「用 Bub 和飞书搭一个更懂群聊上下文的小机器人」,介绍了 Bub 这个项目。趁着部署 Bub 飞书小机器人的机会,小七勾兑上了 Bub 的开发团队,做了一期专访来讲一讲这个 Agent 背后的开发故事。

如何从零开发一个工业级的 SKILL

5 月 30 日
阅读 10 分钟
595
可能大家都听过 skill 这个东西,可能也用过。但是自己从未动手开发过一个 skill,本文主要是带你从一个空目录开始,做出一个可以被验证的 Skill 包。
封面图

RAG、Agentic RAG 和 AI Memory 到底有什么区别?

5 月 28 日
阅读 3 分钟
393
如果你平时会看一些 Agent 或 AI 应用相关的内容,应该多少见过这些词:RAG、Agentic RAG、AI Memory。这些名词看起来有点技术范,但它们描述的能力,其实已经出现在很多 AI 产品里:
封面图

Claude Code 在大型代码库里的工程实践

5 月 27 日
阅读 6 分钟
421
前几天,Anthropic 发布了一篇面向工程团队的 Claude Code 最佳实践文章,重点讨论了在大型代码库中的使用方式。在今天这篇文章中,我们总结了这篇博客的实践内容,并顺便看看:大型团队真想把 AI 编程工具放进日常开发中,有哪些经验是可以直接借鉴的。
封面图