使用大语言模型(LLM)构建个人知识库的一种模式。
这是一个创意文档,旨在被复制粘贴到你的 LLM 智能体中(例如 OpenAI Codex、Claude Code、OpenCode / Pi 等)。其目标是传达高层次的思想,而具体细节将由你与智能体协作共同完善。
核心理念
大多数人使用 LLM 和文档的方式类似于检索增强生成(RAG):你上传一组文件,LLM 在查询时检索相关片段并生成答案。这确实可行,但 LLM 每次提问都要从零开始重新发现知识。没有积累可言。当你提出一个需要综合五份文档的细微问题时,LLM 必须每次都去寻找并拼凑相关片段。没有任何东西是逐步建立的。NotebookLM、ChatGPT 的文件上传功能以及大多数 RAG 系统都是这样工作的。
这里的想法则有所不同。它不是仅仅在查询时从原始文档中检索内容,而是让 LLM 增量式地构建和维护一个持久的维基——一个位于你与原始资料之间的结构化、相互关联的 Markdown 文件集合。当你添加新的资料时,LLM 不只是为了后续检索而对其进行索引。它会阅读该资料,提取关键信息,并将其整合到现有的维基中——更新实体页面、修订主题摘要、标注新数据与旧观点相矛盾之处,强化或挑战正在演化的综合结论。知识被一次性编译完成,然后保持最新,而不是在每次查询时都重新推导。
这是关键的区别:维基是一个持久且不断累积的成果。 交叉引用已经存在。矛盾之处已被标记。综合结论已反映你所读过的所有内容。每当你添加一个资料或提出一个问题,维基都会变得更加丰富。
你几乎不需要自己编写维基内容——所有工作都由 LLM 完成。你负责的是资料筛选、探索以及提出正确的问题。LLM 承担了所有繁琐的工作——总结、交叉引用、归档和簿记,这些工作使得知识库在长期使用中真正变得有用。在实践中,我通常将 LLM 智能体放在一侧,Obsidian 放在另一侧。LLM 根据我们的对话进行修改,而我则实时浏览结果——点击链接、查看图谱视图、阅读更新的页面。Obsidian 是 IDE;LLM 是程序员;维基则是代码库。
这种方法可以应用于许多不同的场景。以下是一些例子:
- 个人用途:追踪自己的目标、健康状况、心理状态、自我提升——整理日记条目、文章、播客笔记,并随着时间的推移建立一个结构化的自我认知图景。
- 研究:在数周或数月内深入研究某个主题——阅读论文、文章、报告,并逐步构建一个包含演进论点的综合性维基。
- 阅读书籍:边读边为每一章建档,建立人物、主题、情节线索及其关联的页面。到最后一本书读完时,你将拥有一个丰富的辅助维基。想象一下像 Tolkien Gateway 这样的粉丝维基——由志愿者社区多年共建,包含数千个相互关联的页面,涵盖角色、地点、事件、语言等内容。你也可以在阅读过程中个人化地构建类似的内容,让 LLM 负责交叉引用和维护工作。
- 商业/团队:由 LLM 维护的内部维基,输入来源包括 Slack 线程、会议记录、项目文档和客户通话。可能有人类参与审核更新。由于 LLM 承担了没人愿意做的维护工作,因此维基始终保持最新。
- 竞争分析、尽职调查、旅行规划、课程笔记、兴趣深度挖掘——任何需要长期积累知识并希望将其组织起来的场景,而非零散分布。
架构
整个系统分为三层:
原始资料——你精心挑选的资料集合,包括文章、论文、图片、数据文件等。这些资料是不可变的——LLM 从中读取但从不修改它们。这是你的事实来源。
维基——一个由 LLM 生成的 Markdown 文件目录,包含摘要、实体页面、概念页面、比较分析、概览和综合结论等内容。LLM 完全拥有这一层的所有权。它会创建页面、在新资料到达时更新页面、维护交叉引用并保持整体一致性。你阅读它;LLM 编写它。
模式(Schema)——一个文档(例如 Claude Code 的 CLAUDE.md 或 Codex 的 AGENTS.md),用于告诉 LLM 维基的结构是怎样的、约定俗成的规范是什么,以及在摄取资料、回答问题或维护维基时应遵循哪些工作流程。这是关键的配置文件——它让 LLM 成为一个严谨的维基维护者,而不只是一个通用的聊天机器人。随着你不断探索适合特定领域的方法,你和 LLM 可以共同优化这个模式。
操作流程
摄取(Ingest):你将新的资料放入原始资料集合,并指示 LLM 进行处理。典型流程如下:LLM 阅读该资料,与你讨论重点内容,在维基中撰写摘要页面,更新索引,更新维基中相关的实体和概念页面,并在日志中添加一条记录。单个资料可能会影响 10-15 个维基页面。我个人倾向于逐条摄取资料并保持参与度——我会审阅摘要内容,检查更新情况,并指导 LLM 强调哪些方面。当然,你也可以批量摄取多个资料,但监督程度会相对较低。选择哪种方式取决于你的工作风格,并在模式中记录下来,以便未来会话参考。
查询(Query):你对维基提出问题。LLM 搜索相关页面,阅读后综合给出带引用的答案。答案的形式可根据问题类型灵活调整——可能是 Markdown 页面、对比表格、幻灯片演示稿(Marp)、图表(matplotlib)或画布。重要洞察在于:好的答案可以被归档回维基作为新页面。你要求的对比分析、研究成果或发现的联系都是宝贵的,不应消失在聊天记录中。这样一来,你的探索过程就像摄取资料一样,在知识库中不断累积价值。
检查(Lint):定期要求 LLM 对维基进行健康检查。查找内容包括:页面间的矛盾之处、被新资料推翻的陈旧主张、没有入链的孤立页面、提及但未设独立页面的重要概念、缺失的交叉引用,以及可通过网络搜索填补的数据空白。LLM 擅长建议新的研究方向和待查找的资料。这有助于确保维基在规模增长过程中保持健康状态。
索引与日志
两个特殊文件帮助 LLM(以及你自己)在维基规模扩大时导航其中内容。它们的作用不同:
index.md 是面向内容的。它是维基中所有页面的目录——每个页面列出链接、一句话摘要,并可选择包含日期或资料来源数量等元数据。按类别组织(如实体、概念、资料来源等)。LLM 在每次摄取时都会更新它。回答查询时,LLM 首先阅读索引以找到相关页面,然后深入查阅。这种方法在中等规模下(约 100 个资料来源、数百个页面)表现出色,无需依赖基于嵌入的 RAG 基础设施。
log.md 是按时间顺序排列的。它是一个只追加的记录,详细记载了发生的事件及时间——包括摄取、查询和检查操作。一个小技巧:如果每条记录都以一致的格式开头(例如 ## [2026-04-02] ingest | 文章标题),那么日志就可通过简单的 Unix 工具解析——grep "^## \[" log.md | tail -5 即可显示最近五次操作。日志提供了维基演变的时间线,并帮助 LLM 理解近期已完成的工作。
可选:命令行工具
随着维基规模增长,你可能希望开发一些小型工具来提高 LLM 的操作效率。最明显的例子是为维基页面构建搜索引擎——在小规模情况下,索引文件已足够使用,但随着维基扩展,你需要更强大的搜索能力。qmd 是一个不错的选择:它是一个本地 Markdown 文件搜索引擎,支持混合 BM25/向量搜索和 LLM 重排序,全部运行在设备上。它同时提供 CLI 接口(供 LLM 调用 shell 命令)和 MCP 服务器(供 LLM 作为原生工具使用)。你也可以自行构建更简单的版本——当需求出现时,LLM 可以帮助你快速编写一个基础的搜索脚本。
提示与技巧
- Obsidian Web Clipper 是一款浏览器插件,可将网页文章转换为 Markdown 格式。对于快速将资料导入原始资料集非常有用。
- 下载图片至本地存储。在 Obsidian 设置 → 文件和链接中,将“附件文件夹路径”设置为固定目录(例如 raw/assets/)。然后在设置 → 快捷键中搜索“Download”找到“Download attachments for current file”并绑定热键(例如 Ctrl+Shift+D)。剪辑完一篇文章后按下热键,所有图片都会被下载到本地磁盘。这一步是可选的,但很有用——它允许 LLM 直接查看和引用图片,而不是依赖可能失效的 URL 链接。需要注意的是,LLM 无法一次性原生读取带有内联图片的 Markdown 文本——解决方案是让 LLM 先阅读文字内容,再单独查看部分或全部引用的图片以获得额外上下文。虽然略显繁琐,但效果相当不错。
- Obsidian 的图谱视图是了解维基结构的最佳方式——哪些页面相连、哪些是关键枢纽、哪些是孤立节点。
- Marp 是一种基于 Markdown 的幻灯片演示格式。Obsidian 有对应的插件。可用于直接从维基内容生成演示文稿。
- Dataview 是 Obsidian 的一个插件,可对页面 frontmatter 执行查询。如果你的 LLM 向维基页面添加了 YAML frontmatter(标签、日期、资料来源数量等),Dataview 可动态生成表格和列表。
- 维基本质上就是一个 Git 仓库中的 Markdown 文件集合。你自然获得了版本历史、分支管理和协作功能。
为什么有效
维护知识库的繁琐之处在于簿记而非阅读或思考——更新交叉引用、保持摘要最新、记录新数据如何推翻旧主张、确保数十个页面间的一致性。人类往往放弃维基,因为维护负担的增长速度超过了其带来的价值。LLM 不会感到厌倦,也不会忘记更新交叉引用,一次操作就能处理多达 15 个文件。由于维护成本接近于零,维基得以持续维护。
人类的职责是筛选资料、引导分析、提出好问题并思考其意义所在。而 LLM 则承担其余所有工作。
这个想法在精神上与 Vannevar Bush 于 1945 年提出的 Memex(个人记忆扩展器)理念密切相关——一个经过精心策划的个人知识库,文档之间具有关联路径。Bush 的愿景比后来互联网的发展更接近本方案:私密、主动维护、文档间的连接本身具有价值。他未能解决的问题是谁来承担维护工作,而这正是 LLM 所擅长的。
备注
本文档有意保持抽象性。它描述的是理念而非具体实现。确切的目录结构、模式约定、页面格式和工具链都将取决于你的领域、偏好和所选用的 LLM。上述所有内容均为可选且模块化的——选择有用的部分,忽略不必要的内容。例如:如果你的资料仅为纯文本,则根本不需要处理图片;如果你的维基规模较小,仅需索引文件即可,无需搜索引擎;你可能只关心 Markdown 页面而不需要幻灯片演示;或者你可能希望采用完全不同的输出格式。正确使用本方案的方式是与你的 LLM 智能体共享此文档,并协作构建一个符合你需求的版本。本文档的唯一作用是传达这种模式,而其余细节可由你的 LLM 自行决定。