阿里巴巴云原生 - SegmentFault 思否

深度解构：当 Append-only 的 SLS 遇上 Update/Delete，是如何实现设计权衡的？

阿里云云原生

6 月 24 日

阅读 6 分钟

53

引言：我们是阿里云日志服务 SLS 团队。SLS 是阿里云上的一站式日志与可观测平台，每天承载着海量企业日志的采集、存储、查询、分析与投递。过去十几年里，写入 LogStore 的日志一直都是不可变的。但最近，我们给它加上了对已有数据的原生 update 和 delete 能力。今天想借这篇文章，聊聊我们为什么要做这件事，以及背后...

告别“手搓”工具链：如何通过 Skill 与 MCP 实现 Agent 工具资产化管理？

阿里云云原生

6 月 23 日

阅读 5 分钟

94

搭建一个能够对话的 Agent 并不复杂。进入真实业务场景后，Agent 需要处理的是实时数据查询、内部接口调用、SOP 排查、外部系统操作等任务，这些能力不能只依赖模型本身，必须通过工具体系补齐。

破局 Electron 监控盲区：基于 WASM 与 IPC 桥接的零侵入可观测 SDK 设计

阿里云云原生

6 月 23 日

阅读 7 分钟

113

你的 Electron 应用上线了。用户在用，业务在跑，一切看起来挺好——直到某天，客服转来一条用户反馈：“应用突然闪退了，什么都没保存。”

告别冗长链路！Kafka × Table Bucket 实现开放表格式零 ETL 实时入湖

阿里云云原生

6 月 23 日

阅读 11 分钟

95

摘要：在 AI 驱动的数据应用场景中，企业越来越需要一套同时支撑实时消费、历史沉淀与多引擎复用的数据底座。Kafka、Iceberg 开放表格式与对象存储的组合，正成为流数据入湖的重要方向。但传统依赖 Flink、Spark 等外部 ETL 作业的方式，也带来了链路长、系统边界多、运维复杂等问题。本文围绕“零 ETL”这一趋势，讨论流...

软件工程领域 LLM 驱动的自迭代知识引擎

阿里云云原生

6 月 22 日

阅读 4 分钟

87

AI 编码能力的上限取决于对你项目的理解。再强的模型，如果拿不到你项目的真实知识——架构怎么设计、为什么这么改、团队的约定是什么——也只能给出通用答案，而非真正贴合你项目的帮助。

告别“黑盒进化”：基于阿里云 AgentLoop 实现 AI Agent 全栈自进化闭环

阿里云云原生

6 月 22 日

阅读 6 分钟

148

当我们谈 Agent 进化的时候，通常涵盖两类场景。一种是员工办公场景，通过 Coding Agent 或通用 Agent 的记忆、协作风格、用户画像等能力，让 Agent 越用越聪明、越用越懂用户。另一种是企业的业务场景，比如企业对外提供的客服 Agent，对内提供智能分析的 Data Agent。关于前者，Anthropic 发布的 Economic Index 给过...

只有 Prompt 没用！多 Agent 协作落地，你需要一套类似 K8s 的控制治理平面

阿里云云原生

6 月 18 日

阅读 11 分钟

285

按以往的剧本，接下来是这样的：被叫醒、登跳板机、翻 SLS 日志、对照 Runbook、判断到底是消费者挂了还是下游 RT 飙了、必要时拉群、必要时升级到二线、最后写一份故障复盘。一整套下来，MTTR（平均故障恢复时间，Mean Time To Recovery）轻则一两个小时，重则半个晚上。

深入内核：拆解 OpenTelemetry eBPF 探针如何优雅地“透视”多语言微服务？

阿里云云原生

6 月 17 日

阅读 11 分钟

231

在云原生与微服务架构下，一套生产系统往往横跨 Go、Java、Python、Node.js 等多种语言运行时，部署形态又散落在容器、Kubernetes、Serverless 之间。要在这样的异构环境里建立统一的可观测性，传统做法是为每种语言挂载侵入式 Agent 或 SDK——改代码、装包、对齐版本、重新发布，每接入一个新服务都是一次工程项目。在快...

打破智能体孤岛：基于 A2A 协议的生产级多 Agent 协作平台 AgentRun 实战解析

阿里云云原生

6 月 16 日

阅读 5 分钟

195

单个 Agent 再强，也只是一个人在战斗。真正的生产力倍增，来自多个专职 Agent 的协同——而 AgentRun 让这件事变得像调一个 API 一样简单。

AI Agent 如何“驾驭”云监控？实测自然语言驱动的全链路可观测运维

阿里云云原生

6 月 15 日

阅读 7 分钟

332

阿里云云监控 CLI（aliyun cms2）把 CMS（Cloud Monitor Service）2.0 控制台中的接入、配置、查询、告警、事件等能力统一沉淀为命令行入口；CMS Agent Skill 则把这些命令组织成面向 AI Agent 的业务工作流。

Agent = Model + Harness 是伪命题？企业级 Agent 落地必须补齐的“约束基建”

阿里云云原生

6 月 15 日

阅读 6 分钟

187

Agent = Model + Harness，这个公式因为非常简洁的概括了 Agent、Model、Harness 三者之间的关系，并且对 Agent 质量的提升给出了清晰的投入方向，因此获得了市场的共识。

Stripe、Ramp、Coinbase 都在用的 Coding Agent 架构，究竟有何奥秘？

阿里云云原生

6 月 15 日

阅读 10 分钟

280

当下还在古法手搓代码的开发者都是在奔着非遗传承人的目标去了，绝大多数都已经用上了 Claude Code、Cursor 这类 Coding Agent。方向对了，但场景不同，解法也不同 —— 开发者自己在本地装个 AI 助手提效，和在组织内部搭起一套 AI 驱动的研发协作体系，是完全两个维度的事情。前者已经有成熟的产品了，后者才刚刚开始。...

安全护栏不是简单的开关：拆解 AI Agent 的多层级防护体系与降级路由设计

阿里云云原生

6 月 15 日

阅读 4 分钟

213

Anthropic 发布了 Claude Fable 5，比跑分更值得拆解的是它的运行时行为，当某些请求触发了安全边界，用户的请求将会被切换到 Opus4.8。

拒绝月底“账单惊魂”：AI 网关如何通过“消费者配额”实现大模型调用成本治理？

阿里云云原生

6 月 15 日

阅读 2 分钟

375

作者：张文浩当大模型调用从“尝鲜”走向“规模化生产”，成本治理就不再是一道选答题，而是必答题。为什么 AI 时代需要 FinOps？随着企业 AI 应用进入深水区，越来越多的团队开始面对一个共同的难题：谁在用模型？用了多少 Token？哪个业务线在烧钱？哪个消费者在“超额跑分”？月底账单出来才发现预算爆了，已经晚了。传统的...

Agentic AICon【智能体基础设施与 AgentOps 专场】精彩回顾 & PPT 下载

阿里云云原生

6 月 10 日

阅读 3 分钟

291

近日，Agentic AICon —— 智能体基础设施与 AgentOps 专场圆满落幕。本场活动吸引了 180+ 名技术从业者参与，现场聚焦 Agent 规模化落地的基础设施层，深度分享了 Agent Infra、HiClaw、AgentRun、AgentLoop、STAROps、RocketMQ 等相关议题，系统拆解了企业 Agent 从构建部署、规模化运行、观测评估到智能运维的全生命周...

AI 提效是“假象”还是“红利”？用 LoongSuite + SLS 构建组织级 AI 编码度量看板

阿里云云原生

6 月 10 日

阅读 14 分钟

354

2026 年 5 月，Google Cloud DORA 团队发布了《ROI of AI-Assisted Software Development》。与前一年的《DORA Accelerate State of DevOps Report 2025》侧重个体采纳率不同，这份报告直接面向一个组织级问题：

Code designs Harness 还是 Model drives Harnesses？

阿里云云原生

6 月 9 日

阅读 4 分钟

399

这是 Langchain 提出过的观点，强调了 Harness 在构建 Agent 过程中的重要性。从事过后端开发、设计过分布式系统的朋友，肯对对胶水代码、中间件很熟悉，展开本文正文前，我们来结合两个熟悉的概念来进一步加深理解 Harness。

吉利运维进化论：没有高质量的架构资产，就没有高质量的 AIOps

阿里云云原生

6 月 9 日

阅读 3 分钟

428

关于智能运维，在讨论“AI 会替代多少运维工程师”之外，企业更关心真实环境下的落地问题怎么解决，比如跨云环境下数据怎么打通，复杂系统的告警噪声怎么治理，运维团队的角色到底在往哪个方向变。我是宋鸣，吉利汽车用户数据中心数据质量部长。伴随吉利业务的快速发展与整合，我们的系统规模和复杂度都在指数级增长，也让...

实战揭秘：如何通过 AI Agent Skill 让 K8s 应用自动接入云监控？

阿里云云原生

6 月 9 日

阅读 7 分钟

419

随着云原生架构的普及和 AI 应用的快速增长，企业需要管理的应用类型日益丰富——从传统 Java 微服务到 AI Agent，从 Golang 后端到各类 AI 网关组件。与此同时，可观测平台的接入配置涉及一系列参数和步骤，对运维效率提出了更高要求。

AI Agent 资源利用率瓶颈如何破？AI 任务调度 + Sandbox 实现动态休眠与唤醒

阿里云云原生

6 月 9 日

阅读 3 分钟

332

随着 AI 模型能力越来越强、Agent 框架越来越完善，Agent 正从一问一答的答疑助手，走向可以自主执行任务的个人助手，可以代替人做自动化的工作。定时任务是 Agent 自主工作的主要方式，最近流行的通用智能体（比如 OpenClaw）都内置了定时任务功能。

阿里云可观测 2026 年 5 月产品动态

阿里云云原生

6 月 5 日

阅读 1 分钟

511

本月可观测热文回顾文章一览：让 Coding Agent 从黑盒到透明：阿里云 Agent 观测审计数据采集实践重磅发布丨云监控 AI Agent 可观测，企业生产级 Agent 首选全域观测平台阿里云正式发布 RCA Benchmark，业界首个面向 Agentic Ops 的根因分析开源基准体系让智能无界协作：UModel 正式开源，发起通用语义标准倡议阿里云 ST...

重磅发布！AgentScope Java 2.0：为企业级分布式智能体提供原生工程底座

阿里云云原生

6 月 5 日

阅读 7 分钟

507

AgentScope 是一款开源的智能体应用开发框架，帮助开发者完成从大模型到智能体的构建与部署。继 Python、TypeScript 版本相继升级到 2.0 之后，AgentScope Java 2.0 正式发布——这是 AgentScope 多语言体系迈向 JVM 生态与企业级生产场景的重要一步**。

如何让 Agent 读少一点，做对一点？引入 Ontology（本体论）重构 Agent 依赖探索

阿里云云原生

6 月 4 日

阅读 6 分钟

548

4 个多月前，Uber 开始向旗下约 5000 名工程师全面推广 Claude Code，该工具迅速在工程师群体中引发热潮，但 4 个月后使用量远超公司财务模型的预期，烧光了全年的 AI 编程预算 [ 1] 。这一案例引发了的社区的连锁讨论，一是控制 Token 消耗的最佳实践，二是如何量化商业价值。由此可见，鼓励开发者使用 AI 提效、加速产...

阿里云微服务引擎 MSE 及 API 网关 2026 年 5 月产品动态

阿里云云原生

6 月 3 日

阅读 1 分钟

453

点击此处，了解微服务引擎 MSE 产品详情。

从追踪到治理：LoongSuite 如何通过 OTel 扩展规范填补 AI Agent 可观测体系的语义空白？

阿里云云原生

6 月 3 日

阅读 9 分钟

380

2025 年，AI Agent 从实验室走向规模化生产落地。从开发者日常使用的代码助手到企业服务场景下的智能客服，到复杂度持续升级的多智能体协同系统，AI Agent 正在以前所未有的速度重塑软件开发方式和业务运转流程。

欢迎报名丨2026 Agentic AICon—智能体基础设施与 AgentOps 专场，邀您参会

阿里云云原生

6 月 2 日

阅读 1 分钟

508

如何安全可控地部署运行？如何实现极致弹性与会话级隔离？多智能体之间如何高效协作与统一管控？海量 AI 流量如何接入治理？Agent 的质量与稳定性又该如何持续度量和优化？

实战揭秘：如何让 AI Agent 在真实会话中“自我进化”并实现经验共享？

阿里云云原生

6 月 2 日

阅读 10 分钟

424

从 Claude Code、OpenClaw 到各种 Agent，从 MCP 生态到 AgentSpec 标准，AI Agent 正在以前所未有的速度进入日常工作。它们已经能写代码、排障、读文档、执行命令——但这只是第一步。

告别 Agent“黑箱”！阿里云上线 AI Agent 可观测方案，支持 Multi-Agent 全链路透视

阿里云云原生

6 月 2 日

阅读 6 分钟

681

AI Agent 正加速从实验走向规模化生产，行业进入高速增长期：据 Multimodal.dev 统计，2025年全球 AI Agent 市场规模已达 792 亿美元；Arcade.dev 调研显示，超过 66% 的落地项目已采用更复杂的 Multi-Agent 协作架构；Gartner 更是预测，到 2026 年将有 40% 的企业应用内嵌 AI Agent 能力 [ 1] 。

实战解析：如何用自然语言驱动混沌工程？Blade AI Agent 实现故障演练全链路自动化

阿里云云原生

6 月 1 日

阅读 9 分钟

451

作者：林曜、穹谷混沌工程为什么难落地？每个 SRE 团队都知道混沌工程的价值——在可控条件下主动注入故障，验证系统韧性，防患于未然。但现实是，绝大多数团队的故障演练停留在“年度任务”而非“日常习惯”。原因很简单：门槛太高，流程太碎。一次完整演练五步：定位目标 → 拼装命令 → 确认安全 → 验证效果 → 善后清理。每一...

同一份代码，个人助手 vs 企业平台：AgentScope Java 1.1.0 Harness 落地全解析

阿里云云原生

5 月 29 日

阅读 12 分钟

576

在 AgentScope Java 1.1.0 版本 [ 1] 中，我们把 QwenPaw、OpenClaw、Coding Agent 那套「工作区即真理 + 自我进化」的体验，沉淀成了 HarnessAgent + AbstractFilesystem + 内置压缩与双层记忆的Harness Engineering 工程基础设施。当时我们留下了一个承诺：写一套 Agent 逻辑，按需切换形态，从个人本机一路扩到企业分...

1

1