deephub - SegmentFault 思否

为什么Kriging 与高斯过程回归出自同一数学框架，但实际效果却差很远

6 月 24 日

阅读 5 分钟

35

做过地质统计学、储层建模或空间机器学习的人，大概都面对过这个选择：Kriging（经典地质统计学的主力工具），还是高斯过程回归（Gaussian Process Regression，GPR，其机器学习更加接近）。两者在数学上是相通的——都是基于协方差/核函数构建的"最佳线性无偏预测器"——但实际使用起来像是两个完全不同的世界。Kriging 快...

百亿参数模型的并行训练：节点内张量并行、节点间数据并行

6 月 23 日

阅读 5 分钟

111

现在训练一个 1000 亿参数的 Transformer 模型已经算不上什么新鲜事。GPT-3 有 1750 亿参数，Llama 2 最大版本达 700 亿，许多团队现在随口就把"100B 作为基准"挂在嘴边。但第一次真正上手训练的团队，往往会在一个意想不到的地方撞墙：不是算力，是内存。几乎所有人都会觉得模型放不进 GPU 内存就买更多 GPU，训练慢就...

DiffusionGemma：用离散文本扩散和双向注意力，把推理瓶颈从内存带宽转移到算力

6 月 22 日

阅读 3 分钟

79

标准 Gemma 4 系列依赖自回归解码（autoregressive decoding），从前到后逐个预测 Token。DiffusionGemma 则是离散文本扩散（discrete text diffusion）的实验性模型，可以同时生成并精炼整个文本块，绕过了历史上制约本地 AI 性能的主要硬件瓶颈。

微调LocateAnything-3B 实现超高密度的目标检测

6 月 21 日

阅读 11 分钟

144

微调LocateAnything-3B，实现当图像中有 300+ 个密集重叠目标、人工标注不可行时的实用方案。假设手头有一批种子发芽托盘、谷物质检图像或植物学调查照片。每张图像包含 100–500+ 粒种子，许多彼此重叠，部分被遮挡。老板（或导师）要求模型能精确定位每一粒。

10 个 AI 工程师必须掌握的 LangChain & LangGraph 概念

6 月 16 日

阅读 6 分钟

236

LangChain 和 LangGraph 是目前构建现代 AI 应用最广泛使用的两个框架。两者结合提供了构建可靠、可扩展、易维护 AI 系统所需的核心构件。

Flash-KMeans：快速且内存高效的精确 K-Means，可在单张 GPU 进行亿级数据的聚类

6 月 15 日

阅读 9 分钟

245

在当前的人工智能领域LLM 及其生成能力几乎独占了所有焦点。但再精密的 RAG Pipeline，能力上限也取决于那个沉默的引擎：搜索与聚类层。聚类不只是一项经典的数据科学任务，它是组织高维向量空间的核心机制——让 LLM 能在数十亿条文档和参数的海洋中定位正确的记忆。随着数据集规模持续扩大，沿用数十年的标准算法已经撞...

AI Agent的三重记忆机制：打造高可用的多维记忆系统

6 月 14 日

阅读 7 分钟

321

大多数 AI Agent 项目都从模型开始。该用哪个模型？是用 GPT、Claude、Gemini、Llama，还是本地部署的模型？要不要加工具？要不要加 function calling？要不要让它自主运行？

相关性与因果性：识别伪相关以提升模型在真实环境的可用性

6 月 12 日

阅读 4 分钟

418

相关性表示两个指标存在同步变动趋势，因果性则代表一件事直接促成了另一件事。两者之间有着一道需要用严谨论证来填补的鸿沟。测算相关性毫无门槛但是证明因果关系却极度困难。

2026 年开源 Agent 工具包选型指南：延迟、审计、可移植性与语言栈

6 月 11 日

阅读 7 分钟

295

2026 年用于构建 agent 的开源工具包已经已经得到了巨大的发展，所以本篇文章将从以下角度来帮助你如何选择最适合你的工具：延迟预算、审计追踪、模型可移植性、还是语言栈。

Pydantic v2 入门教程：模型、字段、验证器

6 月 10 日

阅读 7 分钟

309

本问将覆盖 API 的每个核心部分：定义模型、约束字段、写验证器、组合嵌套结构、控制序列化。所有示例基于 Pydantic v2 和 Python 3.10+，每个清单完整可运行。

Orchestrator 为什么比 Agentic Loop 快：LLM 决策与执行分离的架构解析

6 月 9 日

阅读 5 分钟

377

一个三 agent 查询要是用 agentic loop那么7 次 LLM 调用，4.2 秒，0.12 美元。如果用 orchestrator的话 2 次 LLM 调用，1.1 秒只要0.03 美元。同样的 agent同样的答案，却便宜 70%。

手写 Triton Softmax Kernel：程序实例、块大小、mask 与指针算术

6 月 4 日

阅读 4 分钟

731

GPU 编程看起来总像黑魔法，满眼是 warps、shared memory、tensor cores，还有 kernel 里古怪的索引运算。但是这篇文章从一个具体例子入手帮你理解 Triton：从头实现一个 softmax kernel。

Claude Code 调优实操：改完这 10 个设置之后输出质量和效率可以翻倍

6 月 3 日

阅读 3 分钟

748

如果你最近感觉 Claude 编码变差了不少，这可能是因为Anthropic 悄悄修改了默认配置参数，而不是模型的问题。Agent 思考变少了、语法更差、工具调用减少，注释也被去掉了。模型本身没有退化，Anthropic只是把默认执行力度（effort）从"high"降到了"medium"而且没有发公告。下面这 10 个隐藏设置可能大多数人从未动过，但...

Prompt Engineering 的本质：角色、任务、上下文、格式、约束

6 月 1 日

阅读 9 分钟

559

如果你在 ChatGPT、Claude 或 Gemini 里输入过一个问题但是发现："这不是我的意思"——那你已经碰到了 prompt engineering 的核心问题。

视频 RAG 中分块策略：基于停顿、滑动窗口与基于 LLM 的方法

5 月 31 日

阅读 3 分钟

553

文本的RAG我们都已经很熟悉了，但是如果数据以原始视频转录文本的形式存储，没有合适的时间结构，那么相比标准的 PDF 或文本文档，如何检索视频里面的内容呢？针对同样的问题还可以换一个更高层次的问法：

lat.md：将任意项目代码转换为可查询的知识图谱

5 月 29 日

阅读 2 分钟

533

模型一次只能看到项目里的一小部分。当代码规模膨胀到一定程度，把所有文件喂给 AI 就不再是可行的做法——上下文很快被吃光，模型也容易迷失在细节里丢掉对整体的把握。Graphify 可以会把代码、文档，以及视频、音频等媒体素材，一起构建成一份持久化的知识图谱。但是Graphify 偏向做高层信息抽取，

四种无向量RAG 方案实测:BM25、GraphRAG、Tree Search、Agent

5 月 27 日

阅读 6 分钟

528

基于向量的 RAG 优化的是语义相似度（semantic similarity）：比如"不允许退货的政策"和"允许退货的政策"这两个查询会产生几乎相同的 embedding。模型理解的不是逻辑而是向量空间中的邻近关系。

Agentic 设计模式拆解：6 种结构的优缺点与应用场景

5 月 26 日

阅读 3 分钟

456

所以这篇文章总结一些常见的设计模式，这些模式归纳了在大量已验证实现中反复出现的共性，可以视为一组结构化的骨架，用来理解智能体（Agent）、用户、模型和工具之间的核心交互。

从零搭建 Harness Engineering 框架：Rule、Skill、Sub-Agent等工程落完整路径

5 月 25 日

阅读 21 分钟

525

Harness Engineering（脚手架工程）这个概念已经流行一阵了。网上大多数文章都停留在理论层面，反复解释为什么现代 AI 开发不能再依赖单个 Prompt、也不能把模型当成"聪明的代码自动补全"。不过这里有一个实际问题被反复提及：

推理 → 行动 → 观察：用 LangChain + Python 实现一个智能体循环

5 月 23 日

阅读 3 分钟

592

如果你用过 ChatGPT 或 Claude的话对标准聊天机器人的工作方式应该不陌生：提问然后得到一个回答。但如果交给它一个多步骤任务呢？比如：“帮我找到最便宜航班，查询我的常旅客积分，并预订最佳选项”。

TraceML：用三行代码为训练循环加入 step 级诊断

5 月 21 日

阅读 3 分钟

519

在每个训练步骤内部，时间究竟是如何在数据加载、前向、反向和优化器之间分配的，你其实并不清楚。在查看训练运行时，工程师常用的工具链大致是这样：

告别脆弱的单体应用，用多智能体网络构建稳定的生产力工具

5 月 20 日

阅读 14 分钟

641

多智能体系统代表了 AI 应用设计上的一次根本性转向，在过去几年，主流的一直是单智能体模型：一个 LLM、一条提示链（prompt chain）、一个系统包办所有事。这种范式在简单任务上能跑，到了复杂任务上就有一些力不从心了。

2026 年面向 LLM 的 RL方法总结：从 PPO 到 DPO 到 GRPO，再到多智能体 RL

5 月 19 日

阅读 11 分钟

622

强化学习一直是个执着于游戏、机器人和控制回路的小众子领域，直到ChatGPT 出现之后它就成了夹在“聪明的”基础模型与“有用的”产品之间的那一层。到现在差不多已经五年过去，整套流程至少被重写过三次；而被奖励的对象变化的程度甚至比执行奖励的算法本身还要剧烈。

构建一个可自我改进的多 Agent RAG 系统：架构、评估，以及带人工审核的 Prompt 反馈闭环

5 月 18 日

阅读 9 分钟

541

检索增强生成（Retrieval-Augmented Generation，RAG）已经成为将大语言模型（Large Language Model，LLM）回答对接外部知识的主流方式。单 Agent 的 RAG Pipeline 却暴露出一个根本性矛盾：检索质量、推理深度和答案合成被揉进了同一次不透明的前向调用，难以评估、审计或系统性改进。

Agent = Model + Harness：模型决定上限Harness 决定下限

5 月 17 日

阅读 3 分钟

522

Claude Code 和 Cursor 并不是用来跟 AI 对话的界面。同一个项目上跑AI 编码助手：Claude Code、Trae 和 Qwen，你就会发现同一个任务，换一个工具，结果就不一样。

HyDE ：让 RAG 检索从"匹配关键词"升级到"理解意图"

5 月 14 日

阅读 2 分钟

601

做过检索增强生成（Retrieval-Augmented Generation，RAG）的人大概都遇到过这样的情况：用户问了一个完全合理的问题，但检索就是漏掉了最相关的信息。

让机器学习 Pipeline 更稳的 5 个 Python 装饰器代码

5 月 13 日

阅读 4 分钟

453

函数被各种边角任务塞满，反而不再专注于核心的逻辑。所以有经验的 Python 工程师会大量使用装饰器老解决这个问题装饰器让代码可复用、可扩展，写出来的 AI 应用也更整洁，不必把同样的逻辑在每个函数里再抄一遍。

Feature Engineering 实战：Pandas + Scikit-learn的机器学习特征工程的完整代码示例

5 月 12 日

阅读 5 分钟

634

Feature engineering 是机器学习 pipeline 里最关键的一环。算法再好，如果输入数据噪声大、不一致或者缺乏有意义的特征，模型表现都不会很好

2026 RAG 选型指南：Vector、Graph、Vectorless 该怎么挑

5 月 11 日

阅读 6 分钟

762

检索找到了某个语义上接近的片段，LLM 围绕它写出一段文字，但是没人发现答案是错的。这是 vector RAG 调参解决不了的失败问题。而现在有2种方法可以解决他：

三个工具，让 agent 在一次对话里完成研究、写码、调试与保存

5 月 10 日

阅读 6 分钟

630

agent 抓了一份 Python 文档，写了三段 list comprehension 示例，然后跑起来。前两段没问题第三段抛出了语法错误。它没有停在那里，而是去读错误信息、找到问题、把代码改了，再跑一次。这次过了，到这一刻"agentic" 这个词才真正落地。

1

1