deephub

发布了文章6 月 25 日
用 LangGraph 改造单一 RAG 架构：让 Agent 决定调用向量、图遍历还是网络搜索
 deephub
语义搜索、向量数据库迁移、Graph RAG。这些系统有一个共同缺陷——都是 Pipeline，固定执行序列，问题进、答案出，不论输入是什么。
发布了文章6 月 24 日
为什么Kriging 与高斯过程回归出自同一数学框架，但实际效果却差很远
 deephub
做过地质统计学、储层建模或空间机器学习的人，大概都面对过这个选择：Kriging（经典地质统计学的主力工具），还是高斯过程回归（Gaussian Process Regression，GPR，其机器学习更加接近）。两者在数学上是相通的——都是基于协方差/核函数构建的"最佳线性无偏预测器"—...
发布了文章6 月 23 日
百亿参数模型的并行训练：节点内张量并行、节点间数据并行
 deephub
现在训练一个 1000 亿参数的 Transformer 模型已经算不上什么新鲜事。GPT-3 有 1750 亿参数，Llama 2 最大版本达 700 亿，许多团队现在随口就把"100B 作为基准"挂在嘴边。但第一次真正上手训练的团队，往往会在一个意想不到的地方撞墙：不是算力，是内存。几乎所有人...
发布了文章6 月 22 日
DiffusionGemma：用离散文本扩散和双向注意力，把推理瓶颈从内存带宽转移到算力
 deephub
标准 Gemma 4 系列依赖自回归解码（autoregressive decoding），从前到后逐个预测 Token。DiffusionGemma 则是离散文本扩散（discrete text diffusion）的实验性模型，可以同时生成并精炼整个文本块，绕过了历史上制约本地 AI 性能的主要硬件瓶颈。
发布了文章6 月 21 日
微调LocateAnything-3B 实现超高密度的目标检测
 deephub
微调LocateAnything-3B，实现当图像中有 300+ 个密集重叠目标、人工标注不可行时的实用方案。假设手头有一批种子发芽托盘、谷物质检图像或植物学调查照片。每张图像包含 100–500+ 粒种子，许多彼此重叠，部分被遮挡。老板（或导师）要求模型能精确定位每一粒。
发布了文章6 月 16 日
10 个 AI 工程师必须掌握的 LangChain & LangGraph 概念
 deephub
LangChain 和 LangGraph 是目前构建现代 AI 应用最广泛使用的两个框架。两者结合提供了构建可靠、可扩展、易维护 AI 系统所需的核心构件。
发布了文章6 月 15 日
Flash-KMeans：快速且内存高效的精确 K-Means，可在单张 GPU 进行亿级数据的聚类
 deephub
在当前的人工智能领域LLM 及其生成能力几乎独占了所有焦点。但再精密的 RAG Pipeline，能力上限也取决于那个沉默的引擎：搜索与聚类层。聚类不只是一项经典的数据科学任务，它是组织高维向量空间的核心机制——让 LLM 能在数十亿条文档和参数的海洋中定位正确的记忆。...
发布了文章6 月 14 日
AI Agent的三重记忆机制：打造高可用的多维记忆系统
 deephub
大多数 AI Agent 项目都从模型开始。该用哪个模型？是用 GPT、Claude、Gemini、Llama，还是本地部署的模型？要不要加工具？要不要加 function calling？要不要让它自主运行？
发布了文章6 月 12 日
相关性与因果性：识别伪相关以提升模型在真实环境的可用性
 deephub
相关性表示两个指标存在同步变动趋势，因果性则代表一件事直接促成了另一件事。两者之间有着一道需要用严谨论证来填补的鸿沟。测算相关性毫无门槛但是证明因果关系却极度困难。
发布了文章6 月 11 日
2026 年开源 Agent 工具包选型指南：延迟、审计、可移植性与语言栈
 deephub
2026 年用于构建 agent 的开源工具包已经已经得到了巨大的发展，所以本篇文章将从以下角度来帮助你如何选择最适合你的工具：延迟预算、审计追踪、模型可移植性、还是语言栈。
发布了文章6 月 10 日
Pydantic v2 入门教程：模型、字段、验证器
 deephub
本问将覆盖 API 的每个核心部分：定义模型、约束字段、写验证器、组合嵌套结构、控制序列化。所有示例基于 Pydantic v2 和 Python 3.10+，每个清单完整可运行。
发布了文章6 月 9 日
Orchestrator 为什么比 Agentic Loop 快：LLM 决策与执行分离的架构解析
 deephub
一个三 agent 查询要是用 agentic loop那么7 次 LLM 调用，4.2 秒，0.12 美元。如果用 orchestrator的话 2 次 LLM 调用，1.1 秒只要0.03 美元。同样的 agent同样的答案，却便宜 70%。
发布了文章6 月 4 日
手写 Triton Softmax Kernel：程序实例、块大小、mask 与指针算术
 deephub
GPU 编程看起来总像黑魔法，满眼是 warps、shared memory、tensor cores，还有 kernel 里古怪的索引运算。但是这篇文章从一个具体例子入手帮你理解 Triton：从头实现一个 softmax kernel。
发布了文章6 月 3 日
Claude Code 调优实操：改完这 10 个设置之后输出质量和效率可以翻倍
 deephub
如果你最近感觉 Claude 编码变差了不少，这可能是因为Anthropic 悄悄修改了默认配置参数，而不是模型的问题。Agent 思考变少了、语法更差、工具调用减少，注释也被去掉了。模型本身没有退化，Anthropic只是把默认执行力度（effort）从"high"降到了"medium"而且没有发...
发布了文章6 月 1 日
Prompt Engineering 的本质：角色、任务、上下文、格式、约束
 deephub
如果你在 ChatGPT、Claude 或 Gemini 里输入过一个问题但是发现："这不是我的意思"——那你已经碰到了 prompt engineering 的核心问题。
发布了文章5 月 31 日
视频 RAG 中分块策略：基于停顿、滑动窗口与基于 LLM 的方法
 deephub
文本的RAG我们都已经很熟悉了，但是如果数据以原始视频转录文本的形式存储，没有合适的时间结构，那么相比标准的 PDF 或文本文档，如何检索视频里面的内容呢？针对同样的问题还可以换一个更高层次的问法：
发布了文章5 月 29 日
lat.md：将任意项目代码转换为可查询的知识图谱
 deephub
模型一次只能看到项目里的一小部分。当代码规模膨胀到一定程度，把所有文件喂给 AI 就不再是可行的做法——上下文很快被吃光，模型也容易迷失在细节里丢掉对整体的把握。Graphify 可以会把代码、文档，以及视频、音频等媒体素材，一起构建成一份持久化的知识图谱。但是...
发布了文章5 月 27 日
四种无向量RAG 方案实测:BM25、GraphRAG、Tree Search、Agent
deephub
基于向量的 RAG 优化的是语义相似度（semantic similarity）：比如"不允许退货的政策"和"允许退货的政策"这两个查询会产生几乎相同的 embedding。模型理解的不是逻辑而是向量空间中的邻近关系。
发布了文章5 月 26 日
Agentic 设计模式拆解：6 种结构的优缺点与应用场景
 deephub
所以这篇文章总结一些常见的设计模式，这些模式归纳了在大量已验证实现中反复出现的共性，可以视为一组结构化的骨架，用来理解智能体（Agent）、用户、模型和工具之间的核心交互。
发布了文章5 月 25 日
从零搭建 Harness Engineering 框架：Rule、Skill、Sub-Agent等工程落完整路径
 deephub
Harness Engineering（脚手架工程）这个概念已经流行一阵了。网上大多数文章都停留在理论层面，反复解释为什么现代 AI 开发不能再依赖单个 Prompt、也不能把模型当成"聪明的代码自动补全"。不过这里有一个实际问题被反复提及：

加载更多