LLM Wiki 是由前特斯拉 AI 负责人、OpenAI 联合创始人 Andrej Karpathy 提出的一种由 AI 自主构建和维护的复合型知识库架构模式

简单来说,它将大模型(LLM)从单纯的“阅读理解工具”变成了你的“专职知识库编辑”。AI 会自动阅读你提供的所有碎片化资料,并将它们融会贯通,整理成相互链接的结构化 Markdown 笔记体系。

1. 核心差异:LLM Wiki vs. 传统 RAG

目前绝大多数的 AI 知识问答系统(比如让大模型读 PDF,或者常见的 RAG 系统)都是“无状态”的,而 LLM Wiki 强调知识复利(Compounding Knowledge)

  • 传统 RAG(检索增强生成): 就像“开卷考试”。每次你提问,AI 都会从海量原始文件中临时搜索相关片段,然后拼凑出答案。你明天问同样的问题,它又要从头搜索一遍。系统本身不会因为你问得多或存得多而变得更聪明。
  • LLM Wiki: 就像“写文献综述”。当你把新文档放入系统时,AI 不是仅仅把它存起来,而是会主动阅读、提取关键信息,并将其永久融合到现有的 Wiki 页面中。它会更新旧的知识点、创建新概念词条、指出新旧资料之间的冲突,并使用 [[双向链接]] 将相关概念串联起来。

2. 三层系统架构

LLM Wiki 的工程结构非常极简,通常不依赖复杂的向量数据库(Vector DB),而是依赖本地文件系统和纯文本:

  1. Raw Sources(原始资料区): 你收集的 PDF、论文、会议纪要、网页剪报等原始文件。这些是“只读”的,作为绝对的真相来源(Source of Truth)。
  2. The Wiki(维基知识层): 由 LLM 全权编写和维护的一堆结构化 Markdown 文件。这里包含概念解释、实体页面和高度浓缩的总结。人类负责浏览和提问,AI 负责撰写和更新。
  3. The Schema(协议约束): 一份全局配置文件(通常是一个提示词系统文件,如 AGENTS.md),用来告诉 AI 你的知识库逻辑:遇到新资料该按什么模版提取、如何打标签、以及如何维护目录和交叉引用。

3. 通俗解释

为了让你一下子就明白,我们抛开晦涩的计算机术语。你可以把 LLM Wiki 的技术实现想象成在你的电脑里运行了一个“全自动编辑部”,而你的本地文件夹就是它的办公桌。

传统知识库是“你搜什么它找什么”,而 LLM Wiki 的技术核心是“前置计算”(在文档一放进去的时候,AI 就开始疯狂干活了)。

下面是它底层技术实现跑起来的极简流程:

第一步:监控与读取(“收发室”)

  1. 触发机制: 你在电脑里建一个名为 Raw_Data 的文件夹。你往里面丢一个 PDF、一个网页链接或一段语音转录的文本。
  2. 技术动作: 后台的一个 Python 脚本(类似 Watchdog)检测到了新文件,立刻自动调用解析工具(比如 PDF 解析库),把这些资料全部提取成纯文本

第二步:全局检索与比对(“主编审稿”)

  1. 获取全局视野: 脚本不会直接把新文章丢给 AI 结案。它会先去读取你现有的 Wiki 文件夹里的目录树(结构)核心概念摘要
  2. 技术动作: 脚本把【新资料文本】+【现有 Wiki 目录树】一起打包,通过 API 发送给具备长上下文能力的大模型(如 GPT-4o 或 Claude 3.5),并附带一段核心提示词(Prompt):

    "你是一个知识库编辑。这是新来的资料,这是我们现有的 Wiki 结构。请判断:这篇新资料里有哪些新概念?有哪些信息可以补充到旧概念里?"

第三步:AI 自主编写与修改(“下场码字” —— 核心魔法)

大模型收到指令后,不会像聊天机器人一样只跟你对答,而是会输出一组具体的文件操作指令(通常是 JSON 格式)。

  • 技术动作: AI 可能会返回这样的机器指令:
  • UPDATE (更新): 打开现有的 LLM.md 文件,把新资料里关于“长上下文”的内容补充进去。
  • CREATE (新建): 发现了一个新词,新建一个 RAG技术.md 的文件,并写好总结。
  • LINK (链接): 在 LLM.mdRAG技术.md 之间加上 [[双向链接]] 语法。

第四步:保存为静态文件(“印刷归档”)

  1. 写入本地: Python 脚本接收到 AI 返回的指令,老老实实地在你的本地电脑上执行文件修改。
  2. 技术动作: 所有产物最终全部变成纯文本的 Markdown (.md) 文件,保存在你的 Wiki 文件夹里。你可以直接用 Obsidian、Logseq 或 VS Code 打开看,内容已经被整理得井井有条。

技术栈大揭秘(其实非常轻量)

如果你是一个程序员,你想自己手搓一个 LLM Wiki,你需要的技术栈大概只有这些:

  • 核心语言: Python / Node.js(写几百行胶水代码调度流程)。
  • AI 大脑: 强力 LLM API(必须是推理能力强、上下文窗口大的模型,比如 Claude 或 GPT-4,普通开源小模型做不好复杂的改写)。
  • 存储引擎: 就是你的本地硬盘!(这就是最牛的地方,不需要部署复杂的数据库,所有知识以 .md 纯文本存在)。
  • 版本控制(可选): Git(因为全都是文本文件,每次 AI 修改后自动 commit,你可以清晰看到 AI 篡改了哪些知识点,随时回滚)。

总结

传统的 RAG 像是个“外卖员”:你下个单(提问),他去仓库(数据库)里拿东西拼成一盘菜给你,每次都要重新跑腿。
LLM Wiki 像是个“农场主”:你把种子(原始资料)丢在地里,AI 会主动去施肥、嫁接(整理、改写、链接),最后在你的硬盘里长成一片茂密的知识果园。你进去随便摘果子就行了。


edagarli
4.6k 声望790 粉丝

休学过,创业过,融资过,失败过, 当前还在大厂努力探索AI中,探索人机协同价值最大化