spacewander

637
获赞数
3
关注数
1513
粉丝数
IP 属地上海
2013-11-27 加入
浏览 37.1k

make building blocks that people can understand and use easily, and people will work together to solve the very largest problems.

5,612 声望|大师
全站排名超越 99.81% 用户
shell
694
linux
549
python
470
bash
460
c
433
个人动态
  • 发布了文章6 月 18 日
    fastokens为什么是最快的tokenizer
    tiktoken 是专为 GPT model 实现的 tokenizer,而 hf tokenizer 则采取通用的流水线分层的方式来适配不同的 tokenizer config。尽管两者都采用一样的 fancy_regex 正则库,但是正因为 hf tokenizer 有着更泛用的分层,性能不如 tokenizer。作为交换,hf tokenizer 拥...
  • 发布了文章6 月 4 日
    一种通用的绕过文本检测 AI Guardrail 的方法
    各大云厂商都有面向 AI 推理请求的文本内容检测业务。对于一个 AI platform 来说,AI Guardrail 是不可或缺的功能。最近我想到了一种较为通用的,可以绕过文本检测的手段。
  • 发布了文章5 月 13 日
    推理 API 的“三国”:三种主流 reasoning 格式,谁主沉浮?
    在讨论 reasoning 之前,我们先来看看一个绕不开的概念:CoT(Chain of Thought)。CoT(思维链)最初是一种提示工程技巧,要求模型在给出最终答案前,先输出一系列中间推理步骤。“Reasoning” 指的是模型原生内置的生成 CoT 的机制。模型在训练阶段就经过了强化学习...
  • 发布了文章4 月 20 日
    Anthropic Beta Header 全景:从 Claude Code 私有协议到四大平台的差异
    Anthropic 使用 beta header 来作为 feature flag:[链接]。官方文档上并没有列出所有的 beta header,而且不同平台的 Anthropic 模型上支持的 beta header 也不一致。
  • 发布了文章4 月 3 日
    如何像 Claude Code 一样使用私有 API 管理 prompt cache
    Claude Code 源码就像红楼梦,不同的人可以从中看到不同的东西。安全从业人员可以看到它复杂的 shell 注入防护;Agent 开发者可以看到它巧妙的用户交互;而作为 AI 网关开发者,我更多地关注它是怎么高效地与 Anthropic 模型提供商打交道的,尤其是关注它是如何组织 ...
  • 发布了文章3 月 29 日
    锐评主流AI推理负载均衡开源实现
    负载均衡一向是业务架构里不可或缺的一部分,AI 场景下也不例外。由于推理请求业务量大,而且具有鲜明的特色,所以开发者会部署专门针对推理请求的负载均衡。这里我们就来讲讲推理请求负载均衡的一些开源实现。由于推理请求负载均衡这个名字实在太长,以下请允许我简...
  • 发布了文章3 月 4 日
    tiktoken vs hf tokenizer:AI网关如何本地高效统计Token
    本次请求的 token 计数会在请求末尾时返回,但正如漏算的 Token:AI 网关限额机制的攻防博弈提到的,有些时候请求并不能正常结束,导致中间件无法获知 token 的计数。我们之前遇到过一个场景,高达 10% 左右的请求是提前中断的。即使不考虑这种异常请求,有些时候我...
  • 发布了文章2 月 2 日
    MCP 网关安全警报:OpenAPI 转换中的命令注入与路径遍历漏洞实证研究
    MCP 是 API 和 AI agent 之间的桥梁,许多 AIGW 为此提供了根据 OpenAPI spec,将现存 API 转换成 MCP 的功能。然而大部分 AIGW 在实现该功能时并没有严格检查客户端的输入。某些输入不仅仅会触发网关的 bug,甚至可以直接攻击到后端服务。
  • 发布了文章1 月 13 日
    MCP Gateway 性能对比:Envoy + ext proc + sidecar 是否可行?
    有些读者可能不太清楚 ext proc 是什么。Ext proc 是 Envoy 的一种拓展方式。用户自己额外部署一个 sidecar,Envoy 通过 ext proc 和这个 sidecar 通信,将请求特征发送给 sidecar,sidecar 处理完将进一步的 action 返回给 Envoy。
  • 发布了文章2025-12-08
    漏算的 Token:AI 网关限额机制的攻防博弈
    AI 网关通常有这样的功能:基于 token 消耗量来做限额操作。有些地方叫做 ai-rate-limiting,有些地方叫做 ai-quota。无论名字为何,原理同出一辙,都是基于推理请求结束时返回的 token usage 信息。
  • 发布了文章2025-11-28
    转发之外 - AI 网关内容安全实践
    将 AI 的输入输出接到某个内容安全的过滤系统,几乎是每个 AI 网关必备的功能。为了合规,一方面,上下文中的个人信息需要脱敏;另一方面,某些不合时宜的言论需要净化。市面上内容安全的过滤系统功能大体上都差不多:接收一段信息,返回处理结果(是否过滤、触犯了...
  • 发布了文章2025-11-18
    AI 网关系列
    agentgateway 评测:功能丰富的 AI 网关新秀转发之外 - AI 网关内容安全实践漏算的 Token:AI 网关限额机制的攻防博弈MCP Gateway 性能对比:Envoy + ext proc + sidecar 是否可行?MCP 网关安全警报:OpenAPI 转换中的命令注入与路径遍历漏洞实证研究推理 API 的“三...
  • 发布了文章2025-11-05
    agentgateway 评测:功能丰富的 AI 网关新秀
    agentgateway 是 solo 专门为 AI 场景开发的网关数据面。该数据面采用 Rust 编写,支持通过 xDS (一种基于 gRPC 的协议)和 yaml 来配置。最近他们决定将 kgateway 在 AI 场景下的数据面从 Envoy 换成 agentgateway。估计企业版的 Gloo 也会跟着变。原来在 AI 场景...
  • 发布了文章2025-10-14
    在测试 MCP OAuth 之前你需要了解的 workaround
    作为一个刚推出几个月且较为复杂的机制,MCP OAuth 生态整体尚未成熟。无论是客户端还是 Authorization Server(以下简称 AS),都有一些限制。为此,要想跑通 MCP OAuth,也许需要做出一些 workaround。
  • 发布了文章2025-09-15
    MCP 授权机制的现状、问题和解决思路
    MCP 服务器(提供 AI 模型上下文的一方)需要一种机制来验证客户端(使用模型的一方)是否有权访问其资源。在该协议的设计中,这一机制是一种 基于 OAuth 2.1 的标准授权方案。
  • 发布了文章2025-07-22
    AI 安全第一课:构建可信的认证体系
    最近,由 Supabase MCP Server 引发的安全讨论揭示了当前 AI Agent 生态中的潜在风险。两篇深入分析的文章详细阐述了攻击者如何利用 MCP (Machine-Credible Plug-ins) Server 和提示词注入 (Prompt Injection) 的漏洞,将用户数据泄露或写入恶意位置。
  • 发布了文章2025-06-29
    开源之夏申请攻略
    OSPP(开源之夏)是国内最出名的面向学生的有偿编程活动,每年都吸引了大量社区和学生参加。今年据说有 182 个社区的 566 个项目参与这个活动。可以说国内知名的开源社区多多少少都已经参加到这个活动当中。虽然项目数很多,奈何报名的学生更多,每年都处于僧多粥少...
  • 发布了文章2025-05-11
    简单讨论下推理请求调度架构
    在当今复杂多变的技术领域,任何足够复杂的推理业务,都必然要紧密结合推理引擎行为,精心设计出高效的调度系统。原因主要有以下三点:其一,复杂推理服务本质上是分布式的;其二,分布式系统处理请求时,调度不可或缺,若缺乏精细调度,各节点工作负载将不均衡;其...
  • 发布了文章2025-01-26
    Envoy Golang Filter 实践:挑战与应对之道
    有经验的程序员都知道,技术选型是一个 trade-off 的过程。当你选择玫瑰时,小心花朵下面的尖刺。进一步想,如果我们早已知晓鲜花底下的不怀好意的锋芒,就能在摘花时借助剪刀,避免赤手空拳地冒险。这也是本文的主题:应用 Envoy Golang filter 过程中的挑战以及如...
  • 发布了文章2024-12-16
    AI 网关:谈谈 envoyproxy/ai-gateway 和 llm-instance-gateway
    正好我也是做 AI 网关的业内人士,看到同类项目自然会拿来仔细分析一番。三人行必有我师,从别人的思路总是可以学到不少东西。需要注意的是,这两个项目都还处于非常早期的阶段,有可能在将来出现 180° 的变化,因此我这里的分析只能反映当前的状态,不代表后期演进...