告别 GitOps 翻车!7 招让 ArgoCD 稳如老狗

6 月 9 日
阅读 5 分钟
342
最近在搞一个多租户的 Kubernetes 平台,ArgoCD 负责 GitOps 的落地。说实话,之前一直觉得自己对这玩意儿挺熟的,但真正到了生产级的多团队、多集群场景,各种坑就开始冒出来了。

Argo CD 用户管理:本地用户配置与权限分离实践

6 月 4 日
阅读 4 分钟
395
最近帮某个团队做 Argo CD 的权限梳理,发现大部分团队还停留在“所有 DevOps/SRE 共享 admin 账号”的阶段。说实话,这玩意儿在 GitOps 流程里是大忌——谁做了什么、谁改了什么,全混在一起,后面出了问题根本没法追溯。

Rook-Ceph v1.20.0 CSI ServiceAccount 命名不匹配 Bug 及修复方案

6 月 3 日
阅读 9 分钟
419
前言千万不要升级 rook-ceph helm chart 到 v1.20.0血的教训! 差点让我的 Homelab 宕机, 数据丢失.当时我是这样的情况:renovate 检查 rook-ceph helm chart 有新版本 v1.20.0CI helm diff 运行通过, 没有发现异常git 合并到主分支, argocd 升级到 v1.20.0升级后发现2个 ctrlplugin pod 因为 SA 缺失无法启动github issue...

GitOps 喊了这么多年,为什么只有 40% 真正落地?

6 月 2 日
阅读 4 分钟
373
前几天跟一个同行吐槽,他说:“我们 GitOps 口号喊了两年了,CI/CD 流水线也搭了,Git 仓库里也放了 K8s YAML,但说实话——生产环境一出问题,还是直接 kubectl edit 改的,改完忘了同步回去,下次上线又把配置覆盖了,接着告警就炸了……”

前腾讯云员工为腾讯云说‘公道话’:7分钱催收与产品溃败的两极分化

5 月 23 日
阅读 3 分钟
493
最近看到《7分钱逼疯初代互联网大佬》这篇文章,想起了自己在腾讯云待过的半年时光。讲真,作为一个只在腾讯云干了半年的前员工,我的心情是复杂的。有人说我是腾讯黑,也有人说我是腾讯吹。今天,我不吹也不黑,就聊聊作为半个+半年“自己人”看到的两个截然不同的腾讯云。

从惊弓之鸟到珠颈斑鸠:中年人城市生存法则

5 月 19 日
阅读 3 分钟
385
早上挤地铁,看到年轻人刷着短视频笑得前仰后合,我却在心里盘算着房贷还剩多少期、孩子辅导班该续费了、上周体检的肺结节要不要复查。工作群里领导@你,家长群里老师@你,朋友圈里同龄人都在晒升职加薪环游世界。说实话,有时候真觉得自己就像一只“惊弓之鸟”——风吹草动就紧张,看到别人裁员的消息就心慌,听到同事聊跳...
封面图

凌晨告警排查记:一次AWS EBS磁盘IO利用率100%的真相

5 月 18 日
阅读 4 分钟
550
凌晨 3:30(其实是UTC时间, 美国站点的晚上, 我们这边正常上班时间, 嘿嘿嘿),电话响了。心里咯噔一下:这个时间点的告警,十有八九不是什么好事。果然,值班同事反馈应用变得特别慢,大量请求超时,用户已经开始骂了。
封面图

AI 时代,闲暇为何比忙碌更重要

5 月 17 日
阅读 3 分钟
424
最近发现自己陷入了某种焦虑循环:每次打开朋友圈,看到别人在学 AI、打卡健身、副业搞钱,就觉得这日子没法过了。仿佛只有忙到飞起才算“对得起这份工作”——不对,是对得起自己。

可观测性不是孤岛:团队协作与文化变革

5 月 16 日
阅读 3 分钟
472
说实话,最近跟几个在一线做运维的老哥聊天,大家普遍反映一个现象:公司要么没有专门的人搞可观测性,要么搞了个“集中式可观测性团队”,结果这团队天天忙着修 Grafana 页面、配告警规则、挖指标字段,最终成了“工具运维中心”——活没少干,但业务团队该吐槽还是吐槽,该漏报还是漏报。
封面图

失败不丢人,隐瞒才丢人:Cloudflare 的危机公关启示录

5 月 13 日
阅读 2 分钟
349
说实话,一看到 Cloudflare 这篇 《Code Orange: Fail Small is complete》博客,我第一反应是🤔——这玩意儿是搞技术透明度还是搞危机公关?看完之后,我服了。这两者本来就是一体两面。今天就来聊聊,Cloudflare 是怎么通过“主动暴露”来赢得信任的,以及我们这帮搞运维、搞云服务的,能从中学点啥。

AI写代码,脑子却空了

5 月 12 日
阅读 3 分钟
366
当AI成为依赖:认知债务与技能退化的隐忧最近看到两篇关于AI开发陷阱的文章,觉得不写点啥对不起自己也是天天跟 DeepSeek、Claude Code 打交道的运维老狗。先声明一下:这玩意儿不是要全盘否定AI编码,而是想探讨一下——我们在"一把梭"爽完之后,到底付出了什么代价。背景先说说我的日常。作为PaaS架构师,我每天的工作流...
封面图

AWS 可靠性最佳实践:从架构设计到故障恢复一把梭

5 月 11 日
阅读 4 分钟
512
最近帮一个客户复盘了一次生产故障,原因是某核心应用只部署在单可用区,结果遇到 AZ 级别的故障,直接导致服务中断了 2 个多小时。复盘会上大家面面相觑,但说实话这种问题真的太常见了——不是不知道要做高可用,而是“设计的时候觉得不会这么倒霉”、“后来资源紧张就拖着没改”,然后就真的翻车了。

Ubuntu 26.04 游戏配置指南:魔兽争霸3 Dota1

5 月 9 日
阅读 5 分钟
541
五一期间主力台式机装了 Ubuntu 26.04,折腾了一通之后,突然回忆起了当年在网吧通宵 War3 Dota1 的日子,决定在 Linux 上搞两把。

从 Windows 11 迁移到 Ubuntu 26.04:双系统安装与体验记录

5 月 8 日
阅读 7 分钟
677
说实话,这个念头已经酝酿了挺久。Windows 11 吧,说不上不好用,但总感觉越来越臃肿。尤其是每次大版本更新,总得折腾半天。再加上 Docker Desktop 越来越重、WSL 2 的性能损耗、以及时不时蹦出来的蓝屏,让我这颗折腾的心蠢蠢欲动。

拥抱未来十年:Ubuntu 26.04 LTS 升级实践

5 月 5 日
阅读 4 分钟
602
说实话,最近手痒得很。Ubuntu 26.04 LTS (Resolute Raccoon) 发布了,消息一出我就按捺不住。作为一个运维,对 LTS 版本的升级一直持谨慎态度——毕竟生产环境稳定第一。但这回几个核心改进,让我觉得值得认真聊一聊:Linux 7.0 内核、Rust 语言首次融入内核生态、默认 Wayland、TPM 全盘加密。尤其是从我们保险科技行业...
封面图

装个硬盘,方知中年:从螺丝刀到少年游

5 月 4 日
阅读 2 分钟
521
最近忙的要死, 👻👻👻. 这几天终于稍微喘口气,五一在家整理台式机,因为已经忍受 windows 11(bug 11)很久了, 加之 AI 大趋势, 准备先搞个双系统 -- 原来的 windows 11 + 新发布的 Ubuntu 26.04, 就想先装个 SATA SSD 上去,想着专门用作 Ubuntu 26.04 的系统盘, 和 windows 彻底分开。结果呢?兜兜转转折腾了一个多小时,...

中年男人的梦魇:房产缩水、失业危机与痛失至亲

5 月 1 日
阅读 3 分钟
420
梦里,我已经去世的父亲还在。大概是太想他了,我在他住的那个地方——一座荒僻的山顶,硬着头皮买了一套房子。房价正疯的时候,500万,掏空了一切。没有地铁,公交要坐到末站中的末站,再往上,连路都像是硬拽出来的。买完之后,我一天都没住过。

AI时代的技术人困境:当Copilot成了主力,我成了"监工"?

4 月 7 日
阅读 6 分钟
571
作为一名保险科技的 PaaS/云原生架构师,我的日常工作涉及大量的 YAML、Helm Charts、Kubernetes manifests、Terraform 代码和 Python/Bash 脚本。以前,这些活儿都是我亲手敲出来的。但现在呢?

AI 可以取代运维了吗?

4 月 1 日
阅读 6 分钟
536
AI 可以取代运维了吗?可以.只有一个前提:贵司不是采用"防御式运维"的策略.📝声明:古法匠心, 纯人工手工写作本文 100% 由我手工写作而成本文 非 AI 生成背景AI + AI IDE/CLI 取代开发的趋势已经很明显了.作为一个运维, 居安思危, 我自然开始认真🤔起来这个问题: AI 可以取代运维了吗?为此, 我通过数个实战案例来交给 AI 实...

家庭网络如何获取到公网IPv6

1 月 30 日
阅读 5 分钟
1.5k
家庭网络如何获取到公网IPv6OpenWrt 作为二级路由时 IPv6 故障排查与配置总结报告背景基于笔者的实战经验总结而来.供参考.适用于 iStoreOS 和 openwrt.版本是: 24.101. 问题概述初始状态网络拓扑:电信光猫(拨号主路由) → iStoreOS/OpenWrt(二级路由) → 终端设备(PC/手机)。核心问题:终端设备通过 iStoreOS/OpenW...

Claude Code 最佳实践

1 月 4 日
阅读 3 分钟
1.3k
Claude Code 是 Anthropic 推出的命令行工具,旨在为工程师和研究人员提供一种低级别、无偏见的方式,将 Claude AI 无缝集成到编码工作流中。其设计哲学强调灵活性和可定制性,不强制特定工作流程,支持多种语言和环境,适合多样化的开发需求。

Apache Parquet 优势与日志应用场景解析

2025-12-23
阅读 3 分钟
1.1k
写作背景近期看了几篇关于日志解决方案的文章, 发现它们都在使用 Apache Parquet 作为存储文件格式. 如下:Yelp 发布大规模管理 S3 服务器访问日志的方案_架构_InfoQ精选文章Cloudflare Log Explorer is now GA, providing native observability and forensics逆势降本:云上数据平台年复削减30%的治理实践_云计算_吴建阳...

Terraform 系列-什么是 IaC?

2023-04-11
阅读 2 分钟
2.3k
系列文章👉 Terraform 系列文章前言聊到 Terraform, 必然绕不开 IaC 这个概念?那么,什么是 IaC? 🤔基本概念基础架构即代码 (Infrastructure as Code, IaC) 是指通过代码而不是手动流程/控制台点击来管理和配置基础架构。这里有 2 个关键词:InfrastructureCodeInfrastructure 是被管理对象,在这里,主要是指公有云(还...

Wikijs简介-强大&可扩展的开源维基软件

2023-04-06
阅读 4 分钟
3.6k
Wikijs - 最强大 最可扩展的开源维基软件使用 wiki.js 美丽直观的界面,让文档成为写作的乐趣!优点🔧 随时随地安装几乎适用于任何平台,并与PostgreSQL、MySQL、MariaDB、MS SQL Server 或 SQLite 兼容!⚙️ 管理强大使用广泛而直观的管理区域管理维基的所有方面。🚀 性能Wiki.js运行在快速的Node.js引擎上,它是基于性能...

为什么我推荐你使用 systemd timer 替代 cronjob?

2023-04-05
阅读 11 分钟
2.1k
前几天在使用 Terraform + cloud-init 批量初始化我的实验室 Linux 机器。正好发现有一些定时场景需要使用到 cronjob, 进一步了解到 systemd timer 完全可以替换 cronjob, 并且 systemd timer 有一些非常有趣的功能。

Wiki.js配置LDAP认证

2023-04-04
阅读 1 分钟
1.9k
安装好wikijs 之后, 可以进行进一步的详细配置. 这里介绍 LDAP 认证的配置.在 管理 -> 身份验证 -> 添加策略 -> 选择 LDAP/AD , 如下:接下来进行详细配置:显示名称: 按需修改是否启用: 是LDAP URL: 格式为: ldap://serverhost:389 or ldaps://serverhost:636Admin Bind DN: CN=xxxx,OU=xxxx部,OU=xxxx,DC=xxxxx...

Terraform 系列-Terraform 项目的典型文件布局

2023-04-01
阅读 3 分钟
2.1k
系列文章👉 Terraform 系列文章典型文件布局 {代码...} 🔥 提示:- [ ] 表示该项为可选内容示例如 examples/ 表示该项为文件夹详细说明顶层文件夹用于隔离环境modules:Terraform (可复用)模块文件夹stage:预发布 Envprod:生产 envmgmt:管理/DevOps 环境(如:堡垒机、Jenkins 等)global:用于运行各种环境下都要共...

Rancher 系列文章-Rancher 对接 Active Directory 实战

2023-03-29
阅读 3 分钟
1.5k
概述只要是个公司,基本上都有邮箱和 AD(Active Directory). 在 AD 里,已经有了:用户账号密码邮箱用户组组织架构所以对于一些仅限于本公司一定范围内人员使用的管理或后台或运营运维类系统,其实是非常适合对接 AD 来进行认证、分组,以及根据分组来进行权限分配的。对于 Rancher,假设使用者只会有这么几类:管理员:...

Rancher 系列文章-K3S 集群升级

2023-03-27
阅读 7 分钟
1.3k
概述书接上回:《Rancher 系列文章-Rancher 升级》, 我们提到:将 Rancher 用 Helm 从 v2.6.3 升级到 v2.6.4).接下来开始进行 K3S 集群的升级:将 K3S 集群从 v1.21.7+k3s1 升级到 v1.22.5+k3s2相关信息本次升级的 K3S 集群的基本信息为:天翼云上用 4 台机器安装的一个 1 master(及 etcd) 3 node 的 K3S 集群其实... ...

K3s Traefik 报错-Failed to create middleware keys

2023-03-26
阅读 3 分钟
1.6k
概述书接上回:《Rancher 系列文章-K3S 集群升级》, 我们提到:通过一键脚本升级 K3S 集群有报错。接下来开始进行 Traefik 报错的分析和修复, 问题是:所有 Traefik 的 IngressRoute 访问报错 404问题描述报错如下: {代码...} 即无法跨 NameSpace 调用 Traefik MiddleWare.解决过程首先根据官方文档说明:Kubernetes Ing...