实验背景
在 KULAAI(dl.kulaai.cn) 上接入四个模型之后,前几轮横评和协同实验已经把代码生成、终端操作、Bug 排查摸透了。但安全审计这件事一直没单独测——不是测模型能不能发现漏洞,是测能不能走完“发现→定位→修复→验证”的完整闭环。
单模型做安全审计有个天然缺陷:每个模型的安全知识盲区不同。A 模型擅长 SQL 注入检测但疏于权限校验,B 模型对 XSS 敏感但对加密策略不熟。团队设计了一组多模型协同审计实验,目标是看四个模型的审计视角互补之后,能不能把漏洞检出率和修复正确率拉到单模型达不到的水平。
实验设计
| 实验条件 | 说明 |
|---|---|
| 测试样本 | 12 个真实项目漏洞,来自开源项目安全公告和内部渗透测试 |
| 漏洞类型 | SQL 注入、XSS、权限绕过、敏感信息泄露、SSRF、不安全的反序列化 |
| 审计环境 | 统一 Docker 容器,提供完整代码库和架构文档 |
| 评测标准 | 漏洞检出率、误报率、修复正确率、验证是否通过 |
| 时间限制 | 单项目最长 45 分钟 |
四个模型的审计分工:
| 模型 | 审计角色 | 分工依据 |
|---|---|---|
| GPT-5.5 | 主扫描 + 修复 | 代码理解深度最高,修复方案可用率 95%+ |
| Claude 4.8 | 安全边界审查 | 安全审计意识四家最强,能发现隐式权限漏洞 |
| Gemini 3.5 | 代码风格异常检测 | 风格不一致处往往是漏洞藏身点 |
| Grok 4.3 | 配置与环境安全审查 | 终端视角能发现配置层和部署层的安全隐患 |
单模型基线
先让四个模型各自独立审计全部 12 个漏洞,建立基线。
| 模型 | 检出率 | 误报数 | 修复正确率 | 验证通过率 |
|---|---|---|---|---|
| GPT-5.5 | 10 / 12 | 1 | 9 / 10 | 9 / 10 |
| Claude 4.8 | 9 / 12 | 0 | 8 / 9 | 7 / 9 |
| Grok 4.3 | 7 / 12 | 3 | 5 / 7 | 4 / 7 |
| Gemini 3.5 | 6 / 12 | 2 | 4 / 6 | 3 / 6 |
GPT-5.5 检出率最高,10 个漏洞全部修复正确。漏掉的两个一个是配置文件里的密钥硬编码,一个是中间件链里的权限绕过。Claude 4.8 零误报,漏掉的三个漏洞集中在加密策略和并发安全上。Grok 4.3 在配置类漏洞上检出率不错,但代码层漏洞漏了一半。Gemini 3.5 的修复正确率偏低,部分修复方案引入了新问题。
协同审计流程
协同方案按漏洞类型分配协作模式:
| 协作模式 | 适用漏洞 | 流程 |
|---|---|---|
| 主扫+复审 | SQL 注入、XSS | GPT-5.5 主扫 → Claude 4.8 复审修复方案 |
| 双线并行 | 权限绕过、SSRF | GPT-5.5 查代码层 → Grok 4.3 查配置层 |
| 三线交叉 | 敏感信息泄露 | GPT-5.5 + Claude 4.8 + Gemini 3.5 各自独立扫描,交叉验证 |
协同审计结果
| 指标 | GPT-5.5 单模型 | 四模型协同 |
|---|---|---|
| 漏洞检出率 | 10 / 12 | 12 / 12 |
| 误报数 | 1 | 0 |
| 修复正确率 | 9 / 10 | 11 / 12 |
| 验证通过率 | 9 / 10 | 11 / 12 |
| 平均耗时 | 12 分钟 | 18 分钟 |
协同方案检出率 100%,误报率归零。GPT-5.5 漏掉的两个漏洞被 Grok 4.3 和 Claude 4.8 分别补上了。多花的 6 分钟消耗在交叉验证和修复方案评审上,对安全审计场景完全值得。
唯一一个修复后验证失败的漏洞是反序列化问题——GPT-5.5 的修复方案逻辑正确,但在 Grok 4.3 的验证测试里发现了一个遗漏的调用点。这个漏洞最终由 Claude 4.8 重新审查调用链后修复成功。
典型案例还原
案例:中间件权限绕过漏洞
漏洞表现:系统日志里偶发出现非管理员用户调用管理接口的记录,但接口本身有权限校验。
GPT-5.5 扫描时没发现异常——权限校验代码写得很规范。Claude 4.8 复审时注意到日志中间件和认证中间件的执行顺序有问题:日志中间件在最外层,请求进来时先记日志再认证。异常日志其实是认证失败前的请求记录,但业务层收到请求时认证已通过。
Grok 4.3 查配置层时确认了中间件注册顺序和架构文档不一致。根因是部署时误改了中间件加载顺序。调整中间件顺序后问题消失。
这个漏洞 GPT-5.5 单独扫描时漏掉了,因为它检查的是业务代码里的权限校验逻辑,没有审计中间件链的执行顺序。Claude 4.8 的安全边界审查补上了这个缺口。
各模型安全审计特长总结
| 模型 | 最擅长的漏洞类型 | 审计风格 |
|---|---|---|
| GPT-5.5 | SQL 注入、XSS、代码层漏洞 | 深度代码理解,定位精准 |
| Claude 4.8 | 权限绕过、认证缺陷 | 边界审查极细,零误报 |
| Grok 4.3 | 配置泄露、环境漏洞 | 终端视角,发现部署层隐患 |
| Gemini 3.5 | 代码异味隐含的漏洞 | 风格异常往往指向安全死角 |
协同审计的局限
四模型协同审计的 Token 消耗是 GPT-5.5 单独审计的 2.3 倍。时间多花 50%。对于低风险项目,单用 GPT-5.5 审计就够了。协同方案更适合高风险业务——金融、政务、涉及用户敏感数据的场景,全检出率和零误报带来的安全感值得这个额外成本。
另外,交叉验证环节需要一个有安全经验的人来做最终裁决。模型之间的结论出现分歧时,人的判断不能省。
总结
安全审计这件事,单模型视角有天然盲区。GPT-5.5 的盲区在架构层——中间件顺序、配置泄露、调用链权限,它查代码逻辑时不会主动去审这些。Claude 4.8 补上了架构层的视角,Grok 4.3 补上了部署层的视角,Gemini 3.5 补上了代码异味的视角。
四个视角交叉之后,盲区面积大幅缩小。协同审计的价值不在速度,在覆盖度。安全审计宁可慢一点,也别留死角。
实验基于 2026 年 6 月各模型最新版本,12 个漏洞样本来自真实开源项目和渗透测试,统一 Docker 环境,全部结果可复现。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。