大模型百科

使用大语言模型（LLM）构建个人知识库的一种模式。

这是一个创意文档，旨在被复制粘贴到你的 LLM 智能体中（例如 OpenAI Codex、Claude Code、OpenCode / Pi 等）。其目标是传达高层次的思想，而具体细节将由你与智能体协作共同完善。

核心理念

大多数人使用 LLM 和文档的方式类似于检索增强生成（RAG）：你上传一组文件，LLM 在查询时检索相关片段并生成答案。这确实可行，但 LLM 每次提问都要从零开始重新发现知识。没有积累可言。当你提出一个需要综合五份文档的细微问题时，LLM 必须每次都去寻找并拼凑相关片段。没有任何东西是逐步建立的。NotebookLM、ChatGPT 的文件上传功能以及大多数 RAG 系统都是这样工作的。

这里的想法则有所不同。它不是仅仅在查询时从原始文档中检索内容，而是让 LLM 增量式地构建和维护一个持久的维基——一个位于你与原始资料之间的结构化、相互关联的 Markdown 文件集合。当你添加新的资料时，LLM 不只是为了后续检索而对其进行索引。它会阅读该资料，提取关键信息，并将其整合到现有的维基中——更新实体页面、修订主题摘要、标注新数据与旧观点相矛盾之处，强化或挑战正在演化的综合结论。知识被一次性编译完成，然后保持最新，而不是在每次查询时都重新推导。

这是关键的区别：维基是一个持久且不断累积的成果。 交叉引用已经存在。矛盾之处已被标记。综合结论已反映你所读过的所有内容。每当你添加一个资料或提出一个问题，维基都会变得更加丰富。

你几乎不需要自己编写维基内容——所有工作都由 LLM 完成。你负责的是资料筛选、探索以及提出正确的问题。LLM 承担了所有繁琐的工作——总结、交叉引用、归档和簿记，这些工作使得知识库在长期使用中真正变得有用。在实践中，我通常将 LLM 智能体放在一侧，Obsidian 放在另一侧。LLM 根据我们的对话进行修改，而我则实时浏览结果——点击链接、查看图谱视图、阅读更新的页面。Obsidian 是 IDE；LLM 是程序员；维基则是代码库。

这种方法可以应用于许多不同的场景。以下是一些例子：

个人用途：追踪自己的目标、健康状况、心理状态、自我提升——整理日记条目、文章、播客笔记，并随着时间的推移建立一个结构化的自我认知图景。
研究：在数周或数月内深入研究某个主题——阅读论文、文章、报告，并逐步构建一个包含演进论点的综合性维基。
阅读书籍：边读边为每一章建档，建立人物、主题、情节线索及其关联的页面。到最后一本书读完时，你将拥有一个丰富的辅助维基。想象一下像 Tolkien Gateway 这样的粉丝维基——由志愿者社区多年共建，包含数千个相互关联的页面，涵盖角色、地点、事件、语言等内容。你也可以在阅读过程中个人化地构建类似的内容，让 LLM 负责交叉引用和维护工作。
商业/团队：由 LLM 维护的内部维基，输入来源包括 Slack 线程、会议记录、项目文档和客户通话。可能有人类参与审核更新。由于 LLM 承担了没人愿意做的维护工作，因此维基始终保持最新。
竞争分析、尽职调查、旅行规划、课程笔记、兴趣深度挖掘——任何需要长期积累知识并希望将其组织起来的场景，而非零散分布。

架构

整个系统分为三层：

原始资料——你精心挑选的资料集合，包括文章、论文、图片、数据文件等。这些资料是不可变的——LLM 从中读取但从不修改它们。这是你的事实来源。

维基——一个由 LLM 生成的 Markdown 文件目录，包含摘要、实体页面、概念页面、比较分析、概览和综合结论等内容。LLM 完全拥有这一层的所有权。它会创建页面、在新资料到达时更新页面、维护交叉引用并保持整体一致性。你阅读它；LLM 编写它。

模式（Schema）——一个文档（例如 Claude Code 的 CLAUDE.md 或 Codex 的 AGENTS.md），用于告诉 LLM 维基的结构是怎样的、约定俗成的规范是什么，以及在摄取资料、回答问题或维护维基时应遵循哪些工作流程。这是关键的配置文件——它让 LLM 成为一个严谨的维基维护者，而不只是一个通用的聊天机器人。随着你不断探索适合特定领域的方法，你和 LLM 可以共同优化这个模式。

操作流程

摄取（Ingest）：你将新的资料放入原始资料集合，并指示 LLM 进行处理。典型流程如下：LLM 阅读该资料，与你讨论重点内容，在维基中撰写摘要页面，更新索引，更新维基中相关的实体和概念页面，并在日志中添加一条记录。单个资料可能会影响 10-15 个维基页面。我个人倾向于逐条摄取资料并保持参与度——我会审阅摘要内容，检查更新情况，并指导 LLM 强调哪些方面。当然，你也可以批量摄取多个资料，但监督程度会相对较低。选择哪种方式取决于你的工作风格，并在模式中记录下来，以便未来会话参考。

查询（Query）：你对维基提出问题。LLM 搜索相关页面，阅读后综合给出带引用的答案。答案的形式可根据问题类型灵活调整——可能是 Markdown 页面、对比表格、幻灯片演示稿（Marp）、图表（matplotlib）或画布。重要洞察在于：好的答案可以被归档回维基作为新页面。你要求的对比分析、研究成果或发现的联系都是宝贵的，不应消失在聊天记录中。这样一来，你的探索过程就像摄取资料一样，在知识库中不断累积价值。

检查（Lint）：定期要求 LLM 对维基进行健康检查。查找内容包括：页面间的矛盾之处、被新资料推翻的陈旧主张、没有入链的孤立页面、提及但未设独立页面的重要概念、缺失的交叉引用，以及可通过网络搜索填补的数据空白。LLM 擅长建议新的研究方向和待查找的资料。这有助于确保维基在规模增长过程中保持健康状态。

索引与日志

两个特殊文件帮助 LLM（以及你自己）在维基规模扩大时导航其中内容。它们的作用不同：

index.md 是面向内容的。它是维基中所有页面的目录——每个页面列出链接、一句话摘要，并可选择包含日期或资料来源数量等元数据。按类别组织（如实体、概念、资料来源等）。LLM 在每次摄取时都会更新它。回答查询时，LLM 首先阅读索引以找到相关页面，然后深入查阅。这种方法在中等规模下（约 100 个资料来源、数百个页面）表现出色，无需依赖基于嵌入的 RAG 基础设施。

log.md 是按时间顺序排列的。它是一个只追加的记录，详细记载了发生的事件及时间——包括摄取、查询和检查操作。一个小技巧：如果每条记录都以一致的格式开头（例如 ## [2026-04-02] ingest | 文章标题），那么日志就可通过简单的 Unix 工具解析——grep "^## \[" log.md | tail -5 即可显示最近五次操作。日志提供了维基演变的时间线，并帮助 LLM 理解近期已完成的工作。

可选：命令行工具

随着维基规模增长，你可能希望开发一些小型工具来提高 LLM 的操作效率。最明显的例子是为维基页面构建搜索引擎——在小规模情况下，索引文件已足够使用，但随着维基扩展，你需要更强大的搜索能力。qmd 是一个不错的选择：它是一个本地 Markdown 文件搜索引擎，支持混合 BM25/向量搜索和 LLM 重排序，全部运行在设备上。它同时提供 CLI 接口（供 LLM 调用 shell 命令）和 MCP 服务器（供 LLM 作为原生工具使用）。你也可以自行构建更简单的版本——当需求出现时，LLM 可以帮助你快速编写一个基础的搜索脚本。

提示与技巧

Obsidian Web Clipper 是一款浏览器插件，可将网页文章转换为 Markdown 格式。对于快速将资料导入原始资料集非常有用。
下载图片至本地存储。在 Obsidian 设置 → 文件和链接中，将“附件文件夹路径”设置为固定目录（例如 raw/assets/）。然后在设置 → 快捷键中搜索“Download”找到“Download attachments for current file”并绑定热键（例如 Ctrl+Shift+D）。剪辑完一篇文章后按下热键，所有图片都会被下载到本地磁盘。这一步是可选的，但很有用——它允许 LLM 直接查看和引用图片，而不是依赖可能失效的 URL 链接。需要注意的是，LLM 无法一次性原生读取带有内联图片的 Markdown 文本——解决方案是让 LLM 先阅读文字内容，再单独查看部分或全部引用的图片以获得额外上下文。虽然略显繁琐，但效果相当不错。
Obsidian 的图谱视图是了解维基结构的最佳方式——哪些页面相连、哪些是关键枢纽、哪些是孤立节点。
Marp 是一种基于 Markdown 的幻灯片演示格式。Obsidian 有对应的插件。可用于直接从维基内容生成演示文稿。
Dataview 是 Obsidian 的一个插件，可对页面 frontmatter 执行查询。如果你的 LLM 向维基页面添加了 YAML frontmatter（标签、日期、资料来源数量等），Dataview 可动态生成表格和列表。
维基本质上就是一个 Git 仓库中的 Markdown 文件集合。你自然获得了版本历史、分支管理和协作功能。

为什么有效

维护知识库的繁琐之处在于簿记而非阅读或思考——更新交叉引用、保持摘要最新、记录新数据如何推翻旧主张、确保数十个页面间的一致性。人类往往放弃维基，因为维护负担的增长速度超过了其带来的价值。LLM 不会感到厌倦，也不会忘记更新交叉引用，一次操作就能处理多达 15 个文件。由于维护成本接近于零，维基得以持续维护。

人类的职责是筛选资料、引导分析、提出好问题并思考其意义所在。而 LLM 则承担其余所有工作。

这个想法在精神上与 Vannevar Bush 于 1945 年提出的 Memex（个人记忆扩展器）理念密切相关——一个经过精心策划的个人知识库，文档之间具有关联路径。Bush 的愿景比后来互联网的发展更接近本方案：私密、主动维护、文档间的连接本身具有价值。他未能解决的问题是谁来承担维护工作，而这正是 LLM 所擅长的。

备注

本文档有意保持抽象性。它描述的是理念而非具体实现。确切的目录结构、模式约定、页面格式和工具链都将取决于你的领域、偏好和所选用的 LLM。上述所有内容均为可选且模块化的——选择有用的部分，忽略不必要的内容。例如：如果你的资料仅为纯文本，则根本不需要处理图片；如果你的维基规模较小，仅需索引文件即可，无需搜索引擎；你可能只关心 Markdown 页面而不需要幻灯片演示；或者你可能希望采用完全不同的输出格式。正确使用本方案的方式是与你的 LLM 智能体共享此文档，并协作构建一个符合你需求的版本。本文档的唯一作用是传达这种模式，而其余细节可由你的 LLM 自行决定。

内容

核心理念

架构

操作流程

索引与日志

可选：命令行工具

提示与技巧

为什么有效

备注

评论

摘要

别只做检索，让 LLM 持续维护一座“会成长的个人知识库”

两种模式，对比看懂

常见 RAG

持久 wiki 模式

最小可用架构

1. 原始资料层

2. wiki 层

3. schema 层

用起来的关键流程

摄入

查询

巡检

两个关键文件

何时再加工具