spacewander

发布了文章6 月 18 日
fastokens为什么是最快的tokenizer
spacewander
tiktoken 是专为 GPT model 实现的 tokenizer，而 hf tokenizer 则采取通用的流水线分层的方式来适配不同的 tokenizer config。尽管两者都采用一样的 fancy_regex 正则库，但是正因为 hf tokenizer 有着更泛用的分层，性能不如 tokenizer。作为交换，hf tokenizer 拥...
发布了文章6 月 4 日
一种通用的绕过文本检测 AI Guardrail 的方法
 spacewander
各大云厂商都有面向 AI 推理请求的文本内容检测业务。对于一个 AI platform 来说，AI Guardrail 是不可或缺的功能。最近我想到了一种较为通用的，可以绕过文本检测的手段。
发布了文章5 月 13 日
推理 API 的“三国”：三种主流 reasoning 格式，谁主沉浮？
spacewander
在讨论 reasoning 之前，我们先来看看一个绕不开的概念：CoT（Chain of Thought）。CoT（思维链）最初是一种提示工程技巧，要求模型在给出最终答案前，先输出一系列中间推理步骤。“Reasoning” 指的是模型原生内置的生成 CoT 的机制。模型在训练阶段就经过了强化学习...
发布了文章4 月 20 日
Anthropic Beta Header 全景：从 Claude Code 私有协议到四大平台的差异
 spacewander
Anthropic 使用 beta header 来作为 feature flag：[链接]。官方文档上并没有列出所有的 beta header，而且不同平台的 Anthropic 模型上支持的 beta header 也不一致。
发布了文章4 月 3 日
如何像 Claude Code 一样使用私有 API 管理 prompt cache
spacewander
Claude Code 源码就像红楼梦，不同的人可以从中看到不同的东西。安全从业人员可以看到它复杂的 shell 注入防护；Agent 开发者可以看到它巧妙的用户交互；而作为 AI 网关开发者，我更多地关注它是怎么高效地与 Anthropic 模型提供商打交道的，尤其是关注它是如何组织 ...
发布了文章3 月 29 日
锐评主流AI推理负载均衡开源实现
 spacewander
负载均衡一向是业务架构里不可或缺的一部分，AI 场景下也不例外。由于推理请求业务量大，而且具有鲜明的特色，所以开发者会部署专门针对推理请求的负载均衡。这里我们就来讲讲推理请求负载均衡的一些开源实现。由于推理请求负载均衡这个名字实在太长，以下请允许我简...
发布了文章3 月 4 日
tiktoken vs hf tokenizer：AI网关如何本地高效统计Token
spacewander
本次请求的 token 计数会在请求末尾时返回，但正如漏算的 Token：AI 网关限额机制的攻防博弈提到的，有些时候请求并不能正常结束，导致中间件无法获知 token 的计数。我们之前遇到过一个场景，高达 10% 左右的请求是提前中断的。即使不考虑这种异常请求，有些时候我...
发布了文章2 月 2 日
MCP 网关安全警报：OpenAPI 转换中的命令注入与路径遍历漏洞实证研究
 spacewander
MCP 是 API 和 AI agent 之间的桥梁，许多 AIGW 为此提供了根据 OpenAPI spec，将现存 API 转换成 MCP 的功能。然而大部分 AIGW 在实现该功能时并没有严格检查客户端的输入。某些输入不仅仅会触发网关的 bug，甚至可以直接攻击到后端服务。
发布了文章1 月 13 日
MCP Gateway 性能对比：Envoy + ext proc + sidecar 是否可行？
spacewander
有些读者可能不太清楚 ext proc 是什么。Ext proc 是 Envoy 的一种拓展方式。用户自己额外部署一个 sidecar，Envoy 通过 ext proc 和这个 sidecar 通信，将请求特征发送给 sidecar，sidecar 处理完将进一步的 action 返回给 Envoy。
发布了文章2025-12-08
漏算的 Token：AI 网关限额机制的攻防博弈
 spacewander
AI 网关通常有这样的功能：基于 token 消耗量来做限额操作。有些地方叫做 ai-rate-limiting，有些地方叫做 ai-quota。无论名字为何，原理同出一辙，都是基于推理请求结束时返回的 token usage 信息。
发布了文章2025-11-28
转发之外 - AI 网关内容安全实践
 spacewander
将 AI 的输入输出接到某个内容安全的过滤系统，几乎是每个 AI 网关必备的功能。为了合规，一方面，上下文中的个人信息需要脱敏；另一方面，某些不合时宜的言论需要净化。市面上内容安全的过滤系统功能大体上都差不多：接收一段信息，返回处理结果（是否过滤、触犯了...
发布了文章2025-11-18
AI 网关系列
 spacewander
agentgateway 评测：功能丰富的 AI 网关新秀转发之外 - AI 网关内容安全实践漏算的 Token：AI 网关限额机制的攻防博弈MCP Gateway 性能对比：Envoy + ext proc + sidecar 是否可行？MCP 网关安全警报：OpenAPI 转换中的命令注入与路径遍历漏洞实证研究推理 API 的“三...
发布了文章2025-11-05
agentgateway 评测：功能丰富的 AI 网关新秀
 spacewander
agentgateway 是 solo 专门为 AI 场景开发的网关数据面。该数据面采用 Rust 编写，支持通过 xDS （一种基于 gRPC 的协议）和 yaml 来配置。最近他们决定将 kgateway 在 AI 场景下的数据面从 Envoy 换成 agentgateway。估计企业版的 Gloo 也会跟着变。原来在 AI 场景...
发布了文章2025-10-14
在测试 MCP OAuth 之前你需要了解的 workaround
spacewander
作为一个刚推出几个月且较为复杂的机制，MCP OAuth 生态整体尚未成熟。无论是客户端还是 Authorization Server（以下简称 AS），都有一些限制。为此，要想跑通 MCP OAuth，也许需要做出一些 workaround。
发布了文章2025-09-15
MCP 授权机制的现状、问题和解决思路
 spacewander
MCP 服务器（提供 AI 模型上下文的一方）需要一种机制来验证客户端（使用模型的一方）是否有权访问其资源。在该协议的设计中，这一机制是一种基于 OAuth 2.1 的标准授权方案。
发布了文章2025-07-22
AI 安全第一课：构建可信的认证体系
 spacewander
最近，由 Supabase MCP Server 引发的安全讨论揭示了当前 AI Agent 生态中的潜在风险。两篇深入分析的文章详细阐述了攻击者如何利用 MCP (Machine-Credible Plug-ins) Server 和提示词注入 (Prompt Injection) 的漏洞，将用户数据泄露或写入恶意位置。
发布了文章2025-06-29
开源之夏申请攻略
 spacewander
OSPP（开源之夏）是国内最出名的面向学生的有偿编程活动，每年都吸引了大量社区和学生参加。今年据说有 182 个社区的 566 个项目参与这个活动。可以说国内知名的开源社区多多少少都已经参加到这个活动当中。虽然项目数很多，奈何报名的学生更多，每年都处于僧多粥少...
发布了文章2025-05-11
简单讨论下推理请求调度架构
 spacewander
在当今复杂多变的技术领域，任何足够复杂的推理业务，都必然要紧密结合推理引擎行为，精心设计出高效的调度系统。原因主要有以下三点：其一，复杂推理服务本质上是分布式的；其二，分布式系统处理请求时，调度不可或缺，若缺乏精细调度，各节点工作负载将不均衡；其...
发布了文章2025-01-26
Envoy Golang Filter 实践：挑战与应对之道
 spacewander
有经验的程序员都知道，技术选型是一个 trade-off 的过程。当你选择玫瑰时，小心花朵下面的尖刺。进一步想，如果我们早已知晓鲜花底下的不怀好意的锋芒，就能在摘花时借助剪刀，避免赤手空拳地冒险。这也是本文的主题：应用 Envoy Golang filter 过程中的挑战以及如...
发布了文章2024-12-16
AI 网关：谈谈 envoyproxy/ai-gateway 和 llm-instance-gateway
spacewander
正好我也是做 AI 网关的业内人士，看到同类项目自然会拿来仔细分析一番。三人行必有我师，从别人的思路总是可以学到不少东西。需要注意的是，这两个项目都还处于非常早期的阶段，有可能在将来出现 180° 的变化，因此我这里的分析只能反映当前的状态，不代表后期演进...

加载更多