云观秋毫

3
获赞数
1
关注数
1
粉丝数
杭州
IP 属地浙江
2024-01-19 加入
浏览 5.3k

Kindling - OriginX 故障根因推理引擎,基于 eBPF 的自动化 Tracing 分析

20 声望|新手
定位
8
故障
8
日志分析
8
日志
8
go
8
黄金勋章
暂未获得该勋章
如何获得
白银勋章
暂未获得该勋章
如何获得
青铜勋章
暂未获得该勋章
如何获得
个人动态
  • 发布了文章4 月 3 日
    AI 编程的"局部最优"陷阱:全局视野的重要性
    在 AI 辅助编程日益普及的今天,工程团队享受着"秒修报错"的效率红利。但在真实的生产环境中,我们发现了一个值得警惕的系统性问题:当 AI 缺乏全局业务上下文时,它倾向于给出技术上正确、但架构上代价高昂的"局部最优解"。
  • 发布了文章1 月 28 日
    AI Coding 真的缩短开发周期了吗?深度拆解:Debug 时间变长了
    随着AI的广泛应用,GitHub Copilot、Cursor等AI Coding Agents 已经像空气一样,渗透进开发者的日常。自动化生成代码、智能补全、一键找 Bug……听起来,程序员似乎终于要从繁重的体力活中解脱,迎来效率的跃升。
  • 发布了文章2025-11-18
    Syncause 智能体推理视图:让根因分析可验证、可信任
    我们的 AI SRE 智能体 Syncause 致力于通过AI技术提升故障诊断效率。前几天,我们发布了根因分析场景的准确率测试结果。在Train Ticket微服务系统的根因定位任务中,Syncause的AC@3准确率(前3候选根因命中真实故障的概率)达到96.67%,成为目前公开可复现的最高水平。
  • 发布了文章2025-11-12
    比论文更准:Syncause 在根因分析准确率上实现突破
    在最新的 Train Ticket 微服务系统根因分析测试中,Syncause 根因分析准确率(AC@3)达到 96.67% —— 在同类测试场景中,这一数字是目前能公开复现的最高水平。
  • 发布了文章2025-11-06
    LLM + 可观测性根因分析:方法、真实效果与数据鸿沟
    近两年,大模型(LLM)逐步进入可观测性领域。无论是ITBench SRE Agent还是OpenDerisk,都在尝试用大模型自动化根因分析(RCA):通过向模型输入来自分布式系统的指标(metrics)、调用链(traces)和日志(logs),由模型推断“哪个主机、哪个服务、哪条调用链”最可能...
  • 发布了文章2025-09-25
    我们这样做「故障分析AI智能体」,邀请你来试试
    在可观测性领域,我们始终在追问一个问题:当系统出故障时,为什么定位和恢复还要这么复杂、这么慢?我们从一开始就在做一件事——降低产品使用门槛,让你在最紧急的时刻,能用最快的方式找到根因、恢复业务。我们不断琢磨,不断实验:到底怎样才能真正做到?渐渐地我...
  • 发布了文章2025-09-18
    APO v1.12更新:日志采集兼容containerd v2;数据采集优化;多项问题修复
    本次 apo-one-agent 的版本更新中对 ilogtail进行了升级,升级后支持在 containerd v2 环境下采集容器日志。如您手动修改过日志采集配置,需要在更新后重新配置;如您使用默认配置,则无需修改,升级探针后会自动适配。
  • 发布了文章2025-08-06
    APO v1.10.0更新:自动生成故障方向和报告;内存泄漏识别;多集群支持
    本次 APO v1.10.0 版本更新带来了以下新功能和问题修复:更新日志⚠️ 兼容性提示本版本新增了集群标识,用于支持按集群隔离采集数据。升级后:旧数据将归属到“空集群”新数据将归属到您设置的集群大部分功能已做好兼容,数据展示不受影响。但部分依赖历史数据的功能,...
  • 发布了文章2025-07-02
    根因分析新范式:我们的实践方向被最新研究证实
    在当前AIOps领域,主流做法多集中在围绕 Trace、Log、Metrics 的机器学习建模与关联挖掘,寄希望于在复杂数据中“找出”故障根因。但我们在与大量企业沟通后发现,这种方式在实际生产环境中往往难以落地 —— 算法容易泛化失败,结果无法解释,根因归因流于表面,甚至被...
  • 发布了文章2025-06-26
    APO v1.9.0 更新:告警事件筛选;优化告警分析准确性;全量日志优化
    本次 APO v1.9.0 版本更新带来了以下新功能和问题修复:更新日志新增功能新增告警事件筛选功能,帮助用户更高效地定位关键信息,同时优化告警详情的描述内容,使信息表达更清晰支持在告警分析中关联数据库和中间件告警,进一步提高在大量告警场景下根因分析准确性功...
  • 发布了文章2025-05-20
    APO v1.8.0 更新:全新亮色主题;告警详情页;优化告警智能分析
    本次 APO v1.8.0 版本更新带来了以下新功能和问题修复:更新日志新增功能主题切换功能:新增暗黑模式与明亮模式切换,用户可根据个人偏好调整界面风格,提升使用体验。告警事件详情页:新增告警详情页面,展示告警从触发到恢复的状态变化过程。用户可通过告警通知一...
  • 发布了文章2025-04-25
    APO v1.7.0 更新:用户角色权限管理;CPU火焰图数据;优化根因分析效果
    本次 APO v1.7.0 版本更新带来了以下新功能和问题修复:更新日志新增功能(企业版)告警分析:在大模型根因分析过程中展示匹配的真实数据,增强推理的可解释性(企业版)告警分析:支持采集和展示火焰图数据新增基于角色的用户权限控制,现在可以通过给用户分配角色...
  • 发布了文章2025-04-14
    这样的可观测数据平面让AI自动诊断故障
    当今云原生和微服务盛行的时代,分布式系统的复杂性与日俱增。保障系统稳定性、快速进行故障诊断成为了运维和开发团队面临的核心挑战。传统的可观测性工具在数据收集和展示方面取得了长足进步,但在应对海量数据、告警风暴以及深度根因分析方面仍显不足。AI,特别是...
  • 发布了文章2025-03-31
    APO v1.6.0 更新:告警工作流优化;服务列表排序;故障现场数据关联
    使用 PV 替换 HostPath 持久化方式,提高可维护性。如果您创建或修改过工作流,建议备份Postgres后再升级,否则工作流数据会重置。
  • 发布了文章2025-03-24
    试试智能体工作流,自动化搞定运维故障排查
    APO 1.5.0版本全新推出的智能体工作流功能,让运维经验不再零散!只需将日常的运维操作和故障排查经验转化为标准化流程,就能一键复用,效率翻倍,从此告别重复劳动,把时间留给更有价值的创新工作。更贴心的是,APO无需改造现有监控系统,轻松对接即可使用,真正实...
  • 发布了文章2025-03-17
    APO v1.5.0更新:新增工作流编排、数据接入和告警事件列表;新增Traces数据采样
    本次更新带来了专为可观测性系统设计的Agentic工作流编排功能,通过使用工作流,能将你的专家经验转变为可复用的执行流程,赋予智能体专业决策能力,提高故障排查效率。核心亮点:
  • 发布了文章2025-03-11
    重新认识APO——DeepSeek带来可观性领域革命
    Docker通过封装程序执行类库引爆了云原生技术革命,我们相信在人工智能时代,数据结合经验知识封装而成的Agentic workflow将引爆可观测性革命。
  • 发布了文章2025-02-12
    基于DeepSeek的可观测性智能体实践
    云观秋毫是一家在可观测性领域帮助用户落地IT故障根因分析的初创企业。产品最开始使用传统的规则引擎来实现分析规则的执行,但是存在可解释性和定制化差等问题,所以2024年我们探索引入了大语言模型,不仅取得了效果上的提升,同时也获得了更好的解释性和可扩展性。2...
  • 发布了文章2025-02-07
    大语言模型需要的可观测性数据的关联方式
    随着现代分布式架构和微服务的普及,可观测性(Observability)已经成为确保系统健康、排查故障、优化性能的重要组成部分。有效的可观测性数据关联方式不仅能够帮助我们实时监控系统的运行状态,还能在故障发生时迅速定位问题根源。本文将探讨不同的可观测性数据关联...
  • 发布了文章2025-02-05
    APO v1.3.0 更新:支持将第三方告警事件接入平台,统一关联分析告警事件
    在 APO v1.3.0 版本中,我们引入了对第三方告警事件的全面支持,旨在为用户提供一个更为集成和高效的告警分析平台。此次更新允许用户将来自不同来源的告警信息统一接入APO平台,从而实现告警事件的集中管理和关联分析。