信息访问 vs. 推理能力:LLM Agent 性能归因的实验分析

3 月 26 日
阅读 3 分钟
538
Agentic 工作流普及以后,LLM 开始被频繁用于迭代优化机器学习模型:提出配置方案、观察实验结果、逐步改进决策。表面上看这像是推理,但一个根本问题悬而未决:系统性能的提升,究竟源于推理能力,还是源于输入端信息的改善?

TPU 架构与 Pallas Kernel 编程入门:从内存层次结构到 FlashAttention

3 月 25 日
阅读 13 分钟
560
做过 GPU kernel 优化的人对以下编程模型肯定不会陌生:写一个 CUDA kernel分发到流式多处理器(SM)上执行,缓存层次结构自行负责数据搬运。而TPU 则完全不同,除非明确告诉编译器要把哪些数据块搬到哪里,否则kernel 根本无法编译。实际操作确实和听起来一样繁琐,所以JAX 的Pallas 就是解决的这个问题:以 tile 为单...

腾讯微信OpenClaw插件API通信过程剖析与Python原生代码复刻原理

3 月 24 日
阅读 11 分钟
1.4k
腾讯官方开放了一个微信插件 @tencent-weixin/openclaw-weixin,声称可以扫码即可登录,支持消息收发 。这个插件是腾讯官方发布的,用的是微信内部的 ilink AI Bot 平台接口。 本文将介绍如何不装 OpenClaw,直接把协议扒出来,并用 Python 复刻 。

知识引导上下文优化(KgCoOp):一种解决灾难性遗忘的 Prompt Tuning 机制

3 月 23 日
阅读 5 分钟
642
视觉-语言模型(VLMs)如 CLIP 彻底改变了零样本图像识别的处理方式。这类模型在包含 4 亿个图像-文本对的大规模数据集上进行训练,捕获了海量通用知识,具备了识别未被明确训练过对象的能力。

数值特征工程中的四种缩放方法:原理、适用场景与局限性

3 月 22 日
阅读 8 分钟
646
数值特征工程是机器学习模型训练中不可跳过的预处理环节。处理数值数据时需要面对两个核心问题:特征的量级差异和异常值。以年龄和薪资为例,两者的数值范围差了好几个数量级,如果不做任何处理模型很可能仅凭数值大小就给薪资分配更高的权重,完全忽略年龄的作用。

9个提升Python代码生产质量的第三方库

3 月 21 日
阅读 9 分钟
446
loguru、pydantic、httpx都是很好用的库,这篇文章整理的是另一类:多数开发者不知道它们存在,却在不少资深工程师的 requirements.txt 里出现。它们经过生产环境验证、持续维护,解决的都是写业务代码时反复遇到的具体问题。

Claude Code 命令体系解析:三种类型、七大分类、50+ 命令

3 月 20 日
阅读 11 分钟
1.4k
这篇文章覆盖每一个斜杠命令、每一个 CLI 标志、每一个键盘快捷键,以及开发团队从未正式宣布就悄悄上线的隐藏功能。看完本文后Claude Code命令都不再是盲区。

理解 Agent 记忆:从无状态模型到持久化记忆架构

3 月 19 日
阅读 3 分钟
610
Agent 面对的情况截然不同。它们需要处理长期运行的任务,在时间推移中学习用户偏好,跨多个会话与其他 agent 协作。无状态性构成了根本性障碍,没有人能接受一个每周一早上都要重新自我介绍的个人助理。

CRAG 架构解析:如何在生成器前修正错误检索结果

3 月 18 日
阅读 5 分钟
842
绝大多数 RAG 系统把检索当作不会出错的环节,无论拿到的文档是否真正切题,都会径直送入生成器。"CRAG 提出了标准 RAG 从未追问的问题:如果检索器出错了,该怎么办?""不加甄别地引入检索文档,无论其是否相关,都会主动误导生成器,让 RAG 的表现甚至不如不做检索。CRAG 详解CRAG 引入了一个轻量级检索评估器,对给定...

高级 RAG 技术:查询转换与查询分解

3 月 17 日
阅读 3 分钟
664
检索增强生成(RAG)的基础流程是用户查询转换为向量嵌入,从向量数据库中取回相似文档,再将这些文档作为上下文送入大语言模型(LLM)生成答案。

构建生产级 AI Agent 系统的4大主流技术:反思、工具、规划与多智能体协作

3 月 16 日
阅读 15 分钟
671
多数人对AI Agent的理解还停留在"聊天机器人的升级版",这个思路在一段时间里这么理解其实也没什问题,比如问一个问题,拿到一个回答。但很快就能看出来单轮提示-响应的交互根本没有任何的意义,而真正有意义的跃迁发生在AI开始具备这些能力的时候:思考、规划、行动、观察、循环往复,这和我们处理复杂问题的方式几乎一...

BookRAG:面向层级文档的树-图融合RAG框架

3 月 15 日
阅读 4 分钟
736
现有的RAG系统,无论是基于文本的图方法还是基于版面分割的方法,在面对这类文档时往往失效。根源在于两点:结构与语义的脱节以及工作流程的僵化。

多智能体系统的三种编排模式:Supervisor、Pipeline 与 Swarm

3 月 14 日
阅读 6 分钟
684
多智能体系统是 2026 年主流构建方式,Claude 的智能体团队功能、OpenAI 的 Swarm 框架、LangGraph 的编排层以及 CrewAI都指向同一个结论:复杂任务需要协调配合的专家,而非一个万能通才。

更大的上下文窗口为什么让RAG变得更重要而非更多余

3 月 13 日
阅读 3 分钟
812
一旦模型能读完所有内容检索增强生成(RAG)就没有存在的必要了,开发者只需要把整个代码库或者多年的聊天记录塞进 prompt,让模型自行处理,所以AI行业花了好几年追逐更大的上下文窗口:4K → 32K → 128K → 1M tokens。

LangGraph vs Semantic Kernel:状态图与内核插件的两条技术路线对比

3 月 12 日
阅读 7 分钟
5.1k
多数关于 LangGraph 和 Semantic Kernel 的比较文章已经过时。过去六个月里,两个框架分别进行了重大的更新,所以本文将梳理的是实际发生的变化、当前的代码形态,以及如何进行技术选型。

基于网格搜索与分段回归的时间序列变化点检测方法

3 月 11 日
阅读 5 分钟
951
传统统计方法在时间序列分析中既简洁又有力,但面对大规模时间序列集合时,扩展性往往不尽如人意。现实中的趋势变化往往微弱、带有噪声、数量也不止一个,靠肉眼判断既不可靠也不现实。一旦需要处理数十乃至数百条时间序列,人工识别就更不可行了。Figure 1: Identify the optimal number of knots and their positions ...

Python标准库里藏着的7个代码简化利器

3 月 10 日
阅读 3 分钟
650
多数开发者通过教程学Python,教程教的是语法——循环、类、字典。但有经验的Python工程师依赖一套完全不同的工具:惰性求值、描述符、动态类创建、函数式管道。

LangGraph RemoteGraph:本地图与远程图的组合机制解析

3 月 9 日
阅读 24 分钟
582
把 AI agent 的逻辑拆分到多个独立运行的服务中,听起来复杂做起来也确实容易乱。LangGraph 的 RemoteGraph 特性算是一个干净的方案:本地编排器负责流程控制,远程图服务器承担具体计算,状态管理和控制流的职责边界清晰。

MIT论文解读:LLM 会被自身历史回复拖累 ,上下文污染会导致多轮对话质量衰减

3 月 8 日
阅读 4 分钟
740
跟 AI 聊天机器人对话时,用户输入的每一个字都会被保存,模型给出的每一条回复同样会被保存。所有历史内容在下一轮对话中被回传给模型,再下一轮,再下一轮,像河底的沉积物越堆越高。

AutoGen 架构演进全梳理:从 v0.4 到 Microsoft Agent Framework

3 月 7 日
阅读 7 分钟
1.2k
Microsoft AutoGen 曾是构建 LLM 多智能体系统的标杆性开源框架。2023 年末由 Microsoft Research 发布后迅速成为研究人员和开发者的默认选择:智能体之间可以互相对话、调用工具、编写并执行代码、在流程中引入人类审批,以对话式的协调方式取代了单条长 Prompt 链条。

Energy Distance:度量两个多元分布差异的统计方法

3 月 6 日
阅读 2 分钟
658
类似的问题不是没遇到过只是语境不同,比如说模型上次构建以来是否发生了数据漂移?销售分析中产品 A 和产品 B 的分布是否存在差异?归结下来问的都是同一件事,如何量化两个分布之间的差异。

大模型训练的硬件基础:GPU内存层级、分块与并行策略

3 月 5 日
阅读 9 分钟
1k
AI 和 LLM 的进步通常归因于三个方面的持续改进:模型、数据、计算。三者互相关联。要跑起那些参数量庞大的模型,就需要足够的计算资源来支撑。Llama 3 最大的模型超过 4000 亿参数在 16000 块 GPU 上训练了数周乃至数月,优化计算意味着在更低的成本下训练更大的模型。

贝叶斯公式推导:从联合概率的对称性看条件反转

3 月 4 日
阅读 4 分钟
700
一个蒙着眼的人站在两个盒子前面,随机选中任一盒子的概率是 1/2。选定了某个盒子,比如盒子 A,从中摸到红球的概率是 3/4,摸到绿球的概率是 1/4。

KV Cache管理架构演进:从连续分配到统一混合内存架构

3 月 3 日
阅读 5 分钟
1.1k
在生产环境部署过LLM的人都知道模型权重只是问题的一半,另一半是KV cache:存储注意力状态的运行时内存,让模型在生成token时不必从头开始重算。能不能管好这块内存决定了系统是一个卡顿的demo还是一个可用的推理服务。

PhysioDSP:一个面向可穿戴设备的 Python 信号处理库

3 月 2 日
阅读 2 分钟
760
可穿戴设备的生理信号处理是健康科技与研究领域反复出现的工程难题。ECG 记录、心率变异性指标、加速度计数据,不管处理哪一类信号,从原始传感器输出到有意义的生物标志物,整条链路都是碎片化的:算法散落在论文、代码仓库和临时脚本里,接口各不相同,数据模型也无法共享。

VAE 原理拆解:从概率编码到潜在空间正则化

3 月 1 日
阅读 6 分钟
836
这篇文章从基本原理出发完整拆解变分自编码器(VAE)的构建过程。重点不在数学推导而在于把概念落到足够具体的层面:完成实现、训练、调试和部署。每个组件做了什么、为什么需要它、代码里怎么写文章都会逐一交代,后半部分会逐行走读一个最小化的 PyTorch 实现,并介绍训练完成后的几种推理模式。

基于能量的模型(EBM):用能量函数替代概率分布的建模框架

2 月 28 日
阅读 9 分钟
747
Yann LeCun 反复强调过一个观点:当前LLM基于概率、逐 Token 预测的设计路线,很可能走不到人类水平的AI。他的团队更看好另一条路,基于能量的模型(EBM)。

时间序列异常检测的5种方法:从统计阈值到深度学习

2 月 27 日
阅读 3 分钟
791
异常指的是与正常行为产生明显偏离的数据点或数据序列。举几个例子:凌晨 3 点网站流量突然飙升;传感器因设备故障出现读数骤降;已关门的商店内人流量异常激增。

从提示工程转向 上下文工程,6种让LLM在生产环境中稳定输出的技术

2 月 26 日
阅读 10 分钟
714
RAG系统返回了完美的文本块,提示词写得很漂亮,但LLM还是在产生幻觉;文档加得越多,回复质量反而越差。这些问题问题不出在提示词上,而是出在上下文上。

向量搜索系统的三个核心优化维度:速度、精度与规模

2 月 25 日
阅读 6 分钟
822
当数据集膨胀到数百万甚至数十亿量级的向量时,怎么让搜索在这种规模下依然又快又准就成了一个实实在在的工程难题。这篇文章要聊的就是向量搜索系统的三个核心优化方向——性能调优、混合搜索和可扩展架构。