深度解构:当 Append-only 的 SLS 遇上 Update/Delete,是如何实现设计权衡的?

6 月 24 日
阅读 6 分钟
53
引言:我们是阿里云日志服务 SLS 团队。SLS 是阿里云上的一站式日志与可观测平台,每天承载着海量企业日志的采集、存储、查询、分析与投递。过去十几年里,写入 LogStore 的日志一直都是不可变的。但最近,我们给它加上了对已有数据的原生 update 和 delete 能力。今天想借这篇文章,聊聊我们为什么要做这件事,以及背后...

告别“手搓”工具链:如何通过 Skill 与 MCP 实现 Agent 工具资产化管理?

6 月 23 日
阅读 5 分钟
94
搭建一个能够对话的 Agent 并不复杂。进入真实业务场景后,Agent 需要处理的是实时数据查询、内部接口调用、SOP 排查、外部系统操作等任务,这些能力不能只依赖模型本身,必须通过工具体系补齐。

破局 Electron 监控盲区:基于 WASM 与 IPC 桥接的零侵入可观测 SDK 设计

6 月 23 日
阅读 7 分钟
113
你的 Electron 应用上线了。用户在用,业务在跑,一切看起来挺好——直到某天,客服转来一条用户反馈:“应用突然闪退了,什么都没保存。”

告别冗长链路!Kafka × Table Bucket 实现开放表格式零 ETL 实时入湖

6 月 23 日
阅读 11 分钟
95
摘要:在 AI 驱动的数据应用场景中,企业越来越需要一套同时支撑实时消费、历史沉淀与多引擎复用的数据底座。Kafka、Iceberg 开放表格式与对象存储的组合,正成为流数据入湖的重要方向。但传统依赖 Flink、Spark 等外部 ETL 作业的方式,也带来了链路长、系统边界多、运维复杂等问题。本文围绕“零 ETL”这一趋势,讨论流...

软件工程领域 LLM 驱动的自迭代知识引擎

6 月 22 日
阅读 4 分钟
87
AI 编码能力的上限取决于对你项目的理解。再强的模型,如果拿不到你项目的真实知识——架构怎么设计、为什么这么改、团队的约定是什么——也只能给出通用答案,而非真正贴合你项目的帮助。

告别“黑盒进化”:基于阿里云 AgentLoop 实现 AI Agent 全栈自进化闭环

6 月 22 日
阅读 6 分钟
148
当我们谈 Agent 进化的时候,通常涵盖两类场景。一种是员工办公场景,通过 Coding Agent 或通用 Agent 的记忆、协作风格、用户画像等能力,让 Agent 越用越聪明、越用越懂用户。另一种是企业的业务场景,比如企业对外提供的客服 Agent,对内提供智能分析的 Data Agent。关于前者,Anthropic 发布的 Economic Index 给过...

只有 Prompt 没用!多 Agent 协作落地,你需要一套类似 K8s 的控制治理平面

6 月 18 日
阅读 11 分钟
285
按以往的剧本,接下来是这样的:被叫醒、登跳板机、翻 SLS 日志、对照 Runbook、判断到底是消费者挂了还是下游 RT 飙了、必要时拉群、必要时升级到二线、最后写一份故障复盘。一整套下来,MTTR(平均故障恢复时间,Mean Time To Recovery)轻则一两个小时,重则半个晚上。

深入内核:拆解 OpenTelemetry eBPF 探针如何优雅地“透视”多语言微服务?

6 月 17 日
阅读 11 分钟
231
在云原生与微服务架构下,一套生产系统往往横跨 Go、Java、Python、Node.js 等多种语言运行时,部署形态又散落在容器、Kubernetes、Serverless 之间。要在这样的异构环境里建立统一的可观测性,传统做法是为每种语言挂载侵入式 Agent 或 SDK——改代码、装包、对齐版本、重新发布,每接入一个新服务都是一次工程项目。在快...

打破智能体孤岛:基于 A2A 协议的生产级多 Agent 协作平台 AgentRun 实战解析

6 月 16 日
阅读 5 分钟
195
单个 Agent 再强,也只是一个人在战斗。真正的生产力倍增,来自多个专职 Agent 的协同——而 AgentRun 让这件事变得像调一个 API 一样简单。

AI Agent 如何“驾驭”云监控?实测自然语言驱动的全链路可观测运维

6 月 15 日
阅读 7 分钟
332
阿里云云监控 CLI(aliyun cms2)把 CMS(Cloud Monitor Service)2.0 控制台中的接入、配置、查询、告警、事件等能力统一沉淀为命令行入口;CMS Agent Skill 则把这些命令组织成面向 AI Agent 的业务工作流。

Agent = Model + Harness 是伪命题?企业级 Agent 落地必须补齐的“约束基建”

6 月 15 日
阅读 6 分钟
187
Agent = Model + Harness,这个公式因为非常简洁的概括了 Agent、Model、Harness 三者之间的关系,并且对 Agent 质量的提升给出了清晰的投入方向,因此获得了市场的共识。

Stripe、Ramp、Coinbase 都在用的 Coding Agent 架构,究竟有何奥秘?

6 月 15 日
阅读 10 分钟
280
当下还在古法手搓代码的开发者都是在奔着非遗传承人的目标去了,绝大多数都已经用上了 Claude Code、Cursor 这类 Coding Agent。方向对了,但场景不同,解法也不同 —— 开发者自己在本地装个 AI 助手提效,和在组织内部搭起一套 AI 驱动的研发协作体系,是完全两个维度的事情。前者已经有成熟的产品了,后者才刚刚开始。...

安全护栏不是简单的开关:拆解 AI Agent 的多层级防护体系与降级路由设计

6 月 15 日
阅读 4 分钟
213
Anthropic 发布了 Claude Fable 5,比跑分更值得拆解的是它的运行时行为,当某些请求触发了安全边界,用户的请求将会被切换到 Opus4.8。

拒绝月底“账单惊魂”:AI 网关如何通过“消费者配额”实现大模型调用成本治理?

6 月 15 日
阅读 2 分钟
375
作者:张文浩当大模型调用从“尝鲜”走向“规模化生产”,成本治理就不再是一道选答题,而是必答题。为什么 AI 时代需要 FinOps?随着企业 AI 应用进入深水区,越来越多的团队开始面对一个共同的难题:谁在用模型?用了多少 Token?哪个业务线在烧钱?哪个消费者在“超额跑分”?月底账单出来才发现预算爆了,已经晚了。传统的...

Agentic AICon【智能体基础设施与 AgentOps 专场】精彩回顾 & PPT 下载

6 月 10 日
阅读 3 分钟
291
近日,Agentic AICon —— 智能体基础设施与 AgentOps 专场圆满落幕。本场活动吸引了 180+ 名技术从业者参与,现场聚焦 Agent 规模化落地的基础设施层,深度分享了 Agent Infra、HiClaw、AgentRun、AgentLoop、STAROps、RocketMQ 等相关议题,系统拆解了企业 Agent 从构建部署、规模化运行、观测评估到智能运维的全生命周...

AI 提效是“假象”还是“红利”?用 LoongSuite + SLS 构建组织级 AI 编码度量看板

6 月 10 日
阅读 14 分钟
354
2026 年 5 月,Google Cloud DORA 团队发布了《ROI of AI-Assisted Software Development》。与前一年的《DORA Accelerate State of DevOps Report 2025》侧重个体采纳率不同,这份报告直接面向一个组织级问题:

Code designs Harness 还是 Model drives Harnesses?

6 月 9 日
阅读 4 分钟
399
这是 Langchain 提出过的观点,强调了 Harness 在构建 Agent 过程中的重要性。从事过后端开发、设计过分布式系统的朋友,肯对对胶水代码、中间件很熟悉,展开本文正文前,我们来结合两个熟悉的概念来进一步加深理解 Harness。

吉利运维进化论:没有高质量的架构资产,就没有高质量的 AIOps

6 月 9 日
阅读 3 分钟
428
关于智能运维,在讨论“AI 会替代多少运维工程师”之外,企业更关心真实环境下的落地问题怎么解决,比如跨云环境下数据怎么打通,复杂系统的告警噪声怎么治理,运维团队的角色到底在往哪个方向变。我是宋鸣,吉利汽车用户数据中心数据质量部长。伴随吉利业务的快速发展与整合,我们的系统规模和复杂度都在指数级增长,也让...

实战揭秘:如何通过 AI Agent Skill 让 K8s 应用自动接入云监控?

6 月 9 日
阅读 7 分钟
419
随着云原生架构的普及和 AI 应用的快速增长,企业需要管理的应用类型日益丰富——从传统 Java 微服务到 AI Agent,从 Golang 后端到各类 AI 网关组件。与此同时,可观测平台的接入配置涉及一系列参数和步骤,对运维效率提出了更高要求。

AI Agent 资源利用率瓶颈如何破?AI 任务调度 + Sandbox 实现动态休眠与唤醒

6 月 9 日
阅读 3 分钟
332
随着 AI 模型能力越来越强、Agent 框架越来越完善,Agent 正从一问一答的答疑助手,走向可以自主执行任务的个人助手,可以代替人做自动化的工作。定时任务是 Agent 自主工作的主要方式,最近流行的通用智能体(比如 OpenClaw)都内置了定时任务功能。

阿里云可观测 2026 年 5 月产品动态

6 月 5 日
阅读 1 分钟
511
本月可观测热文回顾文章一览:让 Coding Agent 从黑盒到透明:阿里云 Agent 观测审计数据采集实践重磅发布丨云监控 AI Agent 可观测,企业生产级 Agent 首选全域观测平台阿里云正式发布 RCA Benchmark,业界首个面向 Agentic Ops 的根因分析开源基准体系让智能无界协作:UModel 正式开源,发起通用语义标准倡议阿里云 ST...

重磅发布!AgentScope Java 2.0:为企业级分布式智能体提供原生工程底座

6 月 5 日
阅读 7 分钟
507
AgentScope 是一款开源的智能体应用开发框架,帮助开发者完成从大模型到智能体的构建与部署。继 Python、TypeScript 版本相继升级到 2.0 之后,AgentScope Java 2.0 正式发布——这是 AgentScope 多语言体系迈向 JVM 生态与企业级生产场景的重要一步**。

如何让 Agent 读少一点,做对一点?引入 Ontology(本体论)重构 Agent 依赖探索

6 月 4 日
阅读 6 分钟
548
4 个多月前,Uber 开始向旗下约 5000 名工程师全面推广 Claude Code,该工具迅速在工程师群体中引发热潮,但 4 个月后使用量远超公司财务模型的预期,烧光了全年的 AI 编程预算 [ 1] 。这一案例引发了的社区的连锁讨论,一是控制 Token 消耗的最佳实践,二是如何量化商业价值。由此可见,鼓励开发者使用 AI 提效、加速产...

阿里云微服务引擎 MSE 及 API 网关 2026 年 5 月产品动态

6 月 3 日
阅读 1 分钟
453
点击此处,了解微服务引擎 MSE 产品详情。

从追踪到治理:LoongSuite 如何通过 OTel 扩展规范填补 AI Agent 可观测体系的语义空白?

6 月 3 日
阅读 9 分钟
380
2025 年,AI Agent 从实验室走向规模化生产落地。从开发者日常使用的代码助手到企业服务场景下的智能客服,到复杂度持续升级的多智能体协同系统,AI Agent 正在以前所未有的速度重塑软件开发方式和业务运转流程。

欢迎报名丨2026 Agentic AICon—智能体基础设施与 AgentOps 专场,邀您参会

6 月 2 日
阅读 1 分钟
508
如何安全可控地部署运行?如何实现极致弹性与会话级隔离?多智能体之间如何高效协作与统一管控?海量 AI 流量如何接入治理?Agent 的质量与稳定性又该如何持续度量和优化?

实战揭秘:如何让 AI Agent 在真实会话中“自我进化”并实现经验共享?

6 月 2 日
阅读 10 分钟
424
从 Claude Code、OpenClaw 到各种 Agent,从 MCP 生态到 AgentSpec 标准,AI Agent 正在以前所未有的速度进入日常工作。它们已经能写代码、排障、读文档、执行命令——但这只是第一步。

告别 Agent“黑箱”!阿里云上线 AI Agent 可观测方案,支持 Multi-Agent 全链路透视

6 月 2 日
阅读 6 分钟
681
AI Agent 正加速从实验走向规模化生产,行业进入高速增长期:据 Multimodal.dev 统计,2025年全球 AI Agent 市场规模已达 792 亿美元;Arcade.dev 调研显示,超过 66% 的落地项目已采用更复杂的 Multi-Agent 协作架构;Gartner 更是预测,到 2026 年将有 40% 的企业应用内嵌 AI Agent 能力 [ 1] 。

实战解析:如何用自然语言驱动混沌工程?Blade AI Agent 实现故障演练全链路自动化

6 月 1 日
阅读 9 分钟
451
作者:林曜、穹谷混沌工程为什么难落地?每个 SRE 团队都知道混沌工程的价值——在可控条件下主动注入故障,验证系统韧性,防患于未然。但现实是,绝大多数团队的故障演练停留在“年度任务”而非“日常习惯”。原因很简单:门槛太高,流程太碎。一次完整演练五步:定位目标 → 拼装命令 → 确认安全 → 验证效果 → 善后清理。每一...

同一份代码,个人助手 vs 企业平台:AgentScope Java 1.1.0 Harness 落地全解析

5 月 29 日
阅读 12 分钟
576
在 AgentScope Java 1.1.0 版本 [ 1] 中,我们把 QwenPaw、OpenClaw、Coding Agent 那套「工作区即真理 + 自我进化」的体验,沉淀成了 HarnessAgent + AbstractFilesystem + 内置压缩与双层记忆的Harness Engineering 工程基础设施。当时我们留下了一个承诺:写一套 Agent 逻辑,按需切换形态,从个人本机一路扩到企业分...