头图

_演__作者:李昊哲,阿里云实时计算 Flink 产品经理_ 

内容摘要

Flink Skill 是阿里云为 AI Agent 时代设计的安全操作云上Flink的能力,解决了 Agent 直接调用 OpenAPI 操作生产环境时"能执行但不安全"的核心痛点。实测数据显示,Flink Skill 可将作业反压从 99% 修复至 0%,将全域巡检时间从半天缩短至 30 秒,并支持多个Skill 协同完成实时数仓搭建等复杂任务。

幻灯片9.png

核心观点

  • 安全边界是Agent使用Skill的基础:Flink skill在大模型(大脑)和 API 工具(手脚)之间提供安全护栏和能力边界,确保 Agent 操作生产环境既能干活又不闯祸
  • 对话即运维,Flink运维门槛归零:用户通过自然语言即可完成实例创建、作业部署、故障诊断、告警配置等全链路操作,无需编码或 API 经验
  • Flink skill三层安全防护保障生产:Confirm 门控(写操作需用户确认)、目标锁定(防止偏移操作)、Read-back 验证(确认实际状态后才算成功)
  • Flink Skill与多Skill 协同:Flink + DMS + Hologres等多个 Skill 联动,一句话搭建实时数仓、多模态实时舆情分析系统等复杂场景

一、为什么 AI Agent 时代需要 Skill?

AI Agent 行业在 2025 年发生了什么标志性事件?

2025 年底,AI Agent 行业达成共识:Agent 必须能操作生产环境。三大标志性事件推动了这一转变:Manus 刷屏引发行业对 Agent 执行能力的关注,Anthropic 发布 MCP(Model Context Protocol)协议定义了 Agent 与工具的交互标准,OpenAI 跟进发布 Function Calling 生态,Google 发布 A2A(Agent-to-Agent)协议。这些协议共同确立了 Agent 操作外部系统的技术基础。

云资源操作方式经历了哪些演进阶段?

从控制台点击到 Terraform 编码,再到 Copilot 问答、Agent+OpenAPI 直接调用,每个阶段都有明确的局限性。Agent 直接通过 OpenAPI 操作云资源存在严重安全风险——它能执行但没有护栏,可能删错实例或改错配置。Skill 的核心价值是在 AI 可控范围内为 Agent 安装安全门和能力边界。

阶段时间操作方式核心局限
控制台时代2018 年前页面点击,人工校验参数依赖开发者手动操作,效率低
IaC 时代2018-2023 年Terraform/SDK 编码需要编码能力和 API 经验,门槛高
Copilot 时代2023-2024 年对话式问答能回答问题但不能执行操作
Agent + OpenAPI2024-2025 年Agent 直接调用 API能执行但不安全,无护栏无边界
Agent + Skill2025 年至今自然语言 + Skill 安全保障当前最优解:既能干活又不闯祸

二、Flink Skill 的核心能力是什么?

Flink Skill 是连接 Agent 大脑与执行动作的神经中枢,通过 SOP 注入将专家运维经验固化为 Agent 原生能力,通过逻辑封装屏蔽工具调用复杂度。用一句话总结:Memory 是 Agent 的资产,工具是设备,Skill 是生产工艺。

幻灯片4.png

Skill 如何解决 Agent 操作的安全问题?

Flink Skill 实现了三层生产级安全防护机制,确保 Agent 操作的每一步都在可控范围内:

安全机制功能说明解决的问题
Confirm 门控所有写操作需用户显式确认后才执行防止误操作,保障用户知情权
目标锁定限定 Agent 操作范围,防止偏移操作防止 Agent 误操作非目标实例
Read-back 验证不信任 API 返回码,验证实际状态后才算成功确保操作真正生效(如实例确实 RUNNING)

Flink Skill 提供了哪些具体能力?

Flink Skill 已发布的能力覆盖从实例售卖到作业运维的全生命周期,分为五层架构:

幻灯片7.png

  • 实例管理层(Instance Management):实例创建、扩缩容、生命周期全流程管理,支持一句话完成实例部署
  • 控制台运维层(Workspace Ops):作业 SQL 开发、提交部署、日常运维全场景覆盖,已在 Skill Hub 公开发布
  • 知识层(Knowledge):封装官网文档知识,自动结构化沉淀,开发时无需手动查阅参数文档
  • 诊断层(Diagnose):作业健康诊断、性能分析、根因定位,自动生成诊断报告
  • 安全层(Security):三层安全防护 + 多 Skill 协同能力

三、Flink Skill 有哪些典型应用场景?

Flink Skill 支持多端调用(Flink 控制台、DataWorks Data Agent、OpenClaw、QoderWork、Qoder等等),实现一次建设、多端调用、所说即所得。以下是四个已验证的生产场景。

幻灯片9.png

场景一:作业诊断与修复——如何让 Flink 作业自动修复反压?

通过对话即可完成原来需要翻多个页面、逐项排查的故障诊断和修复流程。实测将作业反压(Backpressure)从 99% 修复至 0%,全程无需人工介入控制台。

幻灯片10.png

典型痛点:Flink 作业 Failover 后日志仅一行报错,根因定位如大海捞针。Checkpoint 超时、反压、数据倾斜每个问题排查方式不同,半夜告警需要逐项翻查控制台日志、Metrics 和事件。

Skill 解决流程

  1. 用户一句话描述问题(如"帮我分析作业的反压问题")
  2. Agent 调用 Diagnose Skill 自动诊断,输出优化建议
  3. 用户确认后,Agent 调用 Workspace Ops Skill 调整并行度参数
  4. Agent 执行 Hot Update 使配置生效
  5. Agent 自动检测作业稳定性,确认反压从 99% 降为 0%

Demo演示:

请至钉钉文档查看附件《1.mov》。

场景二:全域巡检诊断——如何 30 秒完成大促前巡检?

一句话触发全地域 Flink 实例自动巡检,30 秒生成完整巡检报告。原来需要半天时间编写脚本、对接 OpenAPI 的巡检工作,现在通过多个 Skill 组合一次完成。

幻灯片11.png

操作方式:用户输入"帮我巡检所有 Flink 实例,给我一个巡检报告"。Agent 自动执行全地域扫描,遍历所有可用区,发现实例并生成包含风险建议、运行状态和诊断提示的完整报告。

效率对比

指标传统方式Skill 方式提升幅度
巡检耗时约半天(编写脚本+调试+执行)30 秒提升约 1000 倍
技能要求需要 OpenAPI 编程经验自然语言即可门槛归零
覆盖范围取决于脚本质量自动全地域扫描无遗漏

Demo演示:

请至钉钉文档查看附件《2.mov》。

场景三:实时数仓搭建——如何一句话搭建 Flink CDC 全增量同步链路?

通过 Flink Skill + DMS Skill + Hologres Skill 多 Skill 联动,一句话完成从 MySQL 到 Hologres 的实时数仓搭建,告别 T+1 报表延迟。

幻灯片12.png

用户输入示例:"建一个实时数仓,从 MySQL 写一个 Flink CDC 作业,全量和增量数据同时写到 Hologres,确认链路没问题。"

Agent 自动编排流程

  1. DMS Skill 在 MySQL 中创建源表(如 orders 表)
  2. Hologres Skill 自动创建目标库和 Sink 表,完成 Schema 一致性校验
  3. Flink Skill 生成 Flink CDC 全增量一体化作业
  4. Agent 启动作业并确认 Ready 状态
  5. 如发现策略异常,Agent 自动修复后重新提交
  6. 可选:调用 CMS Skill 一键配置监控告警

Demo演示:

请至钉钉文档查看附件《3.mov》。

场景四:品牌舆情实时监控——非技术人员如何搭建多模态实时分析系统?

6 个 Skill 协同工作(Flink 实例管理、Hologres 实例管理、DMS 建表、DataWorks 作业开发、CMS 告警、DIS 性能查询),让市场部同事无需写一行代码即可搭建实时舆情分析系统。

幻灯片13.png

核心实现:通过 Datagen 模拟社交评论数据流,调用 Flink 内置的 AI\_SENTIMENT 函数进行实时情感分析,结果写入 Hologres 后搭建实时 BI 报表,展示各品牌正负面情感评分和实时评论流。

image.png

关键价值

  • 用户全程无代码操作,Agent 自主决定调用流程、参数传递和异常处理
  • 原来需要提工单给数据团队排期的工作,现在市场部同事直接对话完成
  • 支持根据需求灵活编排组合,用 Create Skill 搭积木式打造团队专属数据流水线

幻灯片14.png

舆情分析看板demo:

请至钉钉文档查看附件《屏幕录制2026-04-23 17.47.57.mov》。

四、如何开始使用 Flink Skill?

Flink Skill 提供两种使用入口,均为开箱即用,无需额外安装插件或切换工具。

入口一:阿里云 Skill 门户一键安装

阿里云 Skill Hub 门户已上线首批 69 个官方 Skill,涵盖六大云领域。用户搜索后一键安装即可使用,支持多云生态联动和自动化工作流编排。

幻灯片16.png

访问地址:skills.aliyun.com

入口二:实时计算 Flink 版控制台内置 Skill 技能包

Flink 控制台已原生内置所有 Skill 技能包,开箱即用。从代码生成、故障诊断到资源调配,全链路能力已内置在控制台中,无需切换工具。

幻灯片17.png

五、常见问题(FAQ)

Q: 什么是 Flink Skill?

A: Flink Skill 是阿里云为 AI Agent 设计的安全操作Flink的能力,将Flink专家运维经验固化为 Agent 可调用的能力包,通过三层安全防护确保 Agent 操作生产环境的安全性。

Q: Flink Skill 和直接用 Agent 调 OpenAPI 有什么区别?

A: 直接调 OpenAPI 没有安全护栏,Agent 可能误删实例或改错配置。Flink Skill 提供 Confirm 门控、目标锁定和 Read-back 验证三层安全防护,确保每一步操作可控可回退。

Q: 非技术人员能使用 Flink Skill 吗?

A: 可以。Flink Skill 实现了对话即运维、门槛归零,用户只需用自然语言描述需求,Agent 自动编排底层 Skill 完成全链路操作,无需编写代码或了解 API。

Q: Flink Skill 支持哪些调用方式?

A: 支持多端调用:Flink 原生控制台、阿里云 Skill Hub 门户、DataWorks Data Agent、OpenClaw、QoderWork、Qoder 等,实现一次建设、多端调用。

Q: 如何在阿里云上搭配使用Skill?

A: Flink Skill作为首批 69 个官方 Skill ,已在 skills.aliyun.com 上线,用户可立即安装体验与Hologres、DMS等产品联动使用。

alibabacloud-flink-instance-manage:https://skills.aliyun.com/skills/alibabacloud-flink-instance-...

alibabacloud-flink-workspace-ops:https://skills.aliyun.com/skills/alibabacloud-flink-workspace...

结论

Flink Skill 代表了云资源操作从"人工操控"到"AI 安全托管"的演进方向。通过将专家运维经验固化为 Skill、提供三层安全防护、支持多 Skill 协同编排,阿里云实时计算 Flink 实现了让业务用户像与同事对话一样操作生产环境的目标。Flink Skill作为首批 69 个官方 Skill ,已在 skills.aliyun.com 上线,用户可立即安装体验。

更多内容


活动推荐

复制下方链接或者扫描左边二维码

即可免费试用阿里云 Serverless Flink,体验新一代实时计算平台的强大能力!

了解试用详情:https://free.aliyun.com/?productCode=sc


ApacheFlink
949 声望1.1k 粉丝