头图

一、企业流程自动化的“最后一公里”

每个技术团队都面临同样的困境:开发效率在提升,但流程性工作依然靠人工串联。代码提测要手动更新Jira、部署要跑几条固定脚本、每周五要拉数据生成周报。这些任务技术含量不高,但串联起来极其繁琐。传统自动化方案依赖胶水代码和RPA,维护成本高,业务规则一变就得重写。

大模型Agent的出现提供了新思路:用自然语言描述流程,让AI自动拆解任务、调用工具、处理异常。在 大模型(01gpt.cn) 上深度使用Gemini 3.5 Flash之后,我搭建了一套企业级Agent自动化平台,把内部的审批、巡检、报表等十几条流程全部自动化。选择Gemini 3.5 Flash而非推理更强的模型,核心考量是两个:284 token/s的生成速率让工具调用的“思考-行动”循环几乎零延迟,不到GPT-5.5一半的单价让高频次流程调用成为可能。以下是完整的架构设计和落地经验。

二、整体架构:四层分离的Agent平台

企业级Agent系统不能是一个黑盒,必须具备可观测、可管控、可审计的能力。我们采用四层分层架构,每层职责清晰,互不越界。

层级职责核心组件
接入层统一鉴权、限流、日志API网关 + 内部Token管理
编排层任务拆解、工具调度、状态管理Gemini 3.5 Flash 主Agent
执行层调用内部系统API、数据库查询工具注册中心 + MCP协议
审计层全量日志、异常告警、成本核算日志服务 + 监控告警

接入层做安全兜底,所有请求统一鉴权、限流,开发者不直接持有API Key。编排层是整个系统的大脑,由Gemini 3.5 Flash承担,负责理解用户意图、拆解任务、调度工具、处理异常。执行层对接企业内部的OA、HR、数据库、邮件等系统,通过标准化的工具接口暴露给Agent。审计层记录每一次工具调用和决策过程,用于事后追溯和成本分析。

三、Gemini 3.5 Flash承担核心编排的工程考量

选择Gemini 3.5 Flash作为编排中枢而非其他模型,有明确的工程考量。企业流程自动化对响应速度要求极高——审批流、巡检任务、报表生成都需要即时反馈。Gemini 3.5 Flash的284 token/s生成速率让它在多步工具调用中几乎零等待。其极低的单价让高频次流程调用成为可能——一条审批流可能涉及十余次工具调用,日积月累成本差异显著。支持Thinking Level四档调节,日常简单流程用轻量模式快速响应,复杂审批用深度模式确保推理完整。

四、工具注册:Agent操作企业系统的“手”

Agent要操作企业系统,需要先注册工具。工具注册不只是声明接口,而是一次完整的语义描述——每个工具必须包含名称、功能描述、参数Schema、返回格式、适用场景、权限级别和失败处理策略。以下是一个“创建Jira任务”工具的结构化注册示例:

{
  "name": "jira_create_ticket",
  "description": "在指定项目中创建Jira任务。仅用于需要跟踪的代码提测、Bug修复或需求变更。",
  "parameters": {
    "project_key": {"type": "string", "description": "项目标识"},
    "issue_type": {"type": "string", "enum": ["Task","Bug","Story"], "description": "任务类型"},
    "summary": {"type": "string", "description": "任务标题"},
    "assignee": {"type": "string", "description": "指派人用户名"}
  },
  "permission": "write",
  "confirm_required": true,
  "error_handling": {"400": "参数错误,检查必填字段", "500": "重试1次,失败后挂起"}
}

工具描述越精确,Gemini 3.5 Flash选择工具和填充参数的准确率越高。关键设计是:写操作工具必须配置confirm_required: true,确保Agent在执行前触发人工确认门禁。工具注册时同步配置权限级别——只读工具可直接调用,写操作工具需人工二次确认,破坏性操作工具硬性禁止。

五、实战案例:自动化“巡检-告警-通知”流程

以每日运维巡检为例,传统方式需要运维同事手动登录服务器、检查指标、记录异常、发送通知,整个流程耗时近一小时。用Agent实现后,只需一句话:“执行今日巡检”。

Agent自动拆解为五步:采集所有服务器的CPU、内存、磁盘指标;对比历史基线,标记异常;对异常按严重程度分类;生成巡检报告;发送通知给运维团队。整个过程中,数据采集和报告生成是标准化的工具调用,Agent只负责在合适的时机选择正确的工具。

关键设计是异常分类环节的容错机制——Agent采集某台服务器指标超时,它不会盲目重试,而是标记为“采集失败”并继续处理其他服务器,最后在报告中单独列出异常项。这套流程上线后,每日巡检耗时从近一小时压缩到几分钟,人工只需要在关键节点确认。

六、踩坑与工程边界

上下文膨胀是多轮工具调用中最常见的问题。Agent容易把历史工具调用结果全量保留,导致上下文膨胀。解决方案是工具返回结果只保留结构化摘要,丢弃原始响应体。权限控制必须前置到网关层——初期尝试在Prompt里约束“不要调用敏感工具”,但发现可通过间接方式绕过。整改为网关层硬拦截,Agent发出的工具调用请求先过权限校验,不依赖Prompt约束。

门禁不可绕过。全自动流程中涉及金额、权限变更、数据导出的节点必须设置人工确认门禁。Agent生成操作方案后挂起等待审批,确认后才执行。成本核算按流程拆分,每条自动化流程独立核算Token消耗,月底账单能精确到每条流程的成本归属。

七、总结

企业级Agent落地的核心不是模型能力,而是工程治理。接入层统一鉴权、编排层拆解调度、执行层工具注册、审计层全量记录——四层架构让Agent从“黑盒工具”变成“可管控的企业服务”。Gemini 3.5 Flash的速度和成本优势,让业务流程自动化从“可选项”变成“默认项”——每条流程的边际成本极低,高频调用不再受预算限制。业务自动化不再需要为每个流程写胶水代码,而是用自然语言描述流程,让Agent自己去调度工具。这可能是企业效率提升的下一个分水岭。


爱看球的钥匙扣
1 声望0 粉丝