AI Agent 的记忆之战：为什么知识管理才是下半场的核心竞争力

四月 5, 2026

开场：一个让所有 AI 工程师抓狂的事实

你让 AI Agent 花 30 分钟写了一段复杂代码，下次问它"这段代码的思路是什么"，它一脸茫然。

这不是 Bug。这是 AI Agent 最大的结构性缺陷——它没有记忆。

模型能推理，但它记住的东西撑不过一个 session。上下文窗口再大，也是临时的。长程任务、多轮协作、跨文档检索……这些场景下，“记不住"比"不会推理"更致命。

Karpathy 上周分享了他的解法：不用 RAG，用 Wiki。谷歌联合多所高校发表了一篇综述，系统梳理 Agent 的记忆机制。更早一些，一位开发者提出了一个更激进的观点——代码规范才是团队最重要的"记忆”，而人类根本写不好，只有 Agent 能维护好它。

三篇内容，三个场景，但说的其实是同一件事：

AI Agent 时代，真正的竞争力不在于模型有多聪明，而在于它背后那套"记忆系统"有多可靠。

Karpathy 的方案很反直觉：不用 RAG，用 Obsidian Wiki。

他的工作流是这样的：raw 目录放原始数据（论文、笔记、链接），LLM 定期把这些原始材料编译成结构化的 .md Wiki 文件——包含摘要、反向链接、概念分类、互相引用。然后用 Obsidian 作为前端，配合 Marp 插件渲染幻灯片。

关键发现：100 篇文章、40 万词的规模，是 LLM 自动维护 Wiki 的效率拐点。

超过这个规模，LLM 自动生成的摘要和索引，比 RAG 检索的效果更好。原因很直观：RAG 解决的是"找什么"，但 Wiki 解决的是"理解关联"。当知识库大到一定程度，关键词检索已经不够用了——需要 LLM 真正"读懂"知识之间的联系。

更值得注意的细节：LLM 还会定期做 Wiki 健康检查——找不一致的数据、补全缺失信息、甚至生成新文章的候选选题。这是知识库自我进化的雏形。

Karpathy 的终极愿景：前沿 LLM 可以唤醒一个"LLM 团队"，自动化构建临时 Wiki，直接输出完整报告。人只需要提需求。

如果 Karpathy 解决的是"个人如何使用 AI 管理知识"，谷歌和多所高校的联合综述回答的是更底层的问题：Agent 系统本身需要记忆机制。

上半场，AI 竞争拼的是模型本身——参数规模、推理能力、预训练数据。但当模型能力逐渐趋同，下半场的差异化在哪里？

答案指向了记忆。

Agent 需要在长程任务中保持上下文，需要跨对话记住用户偏好，需要在多轮推理中维护中间状态。这些需求 RAG 解决不了——RAG 是为单次检索设计的，不是为"持续记忆"设计的。

这篇综述梳理了几种主流的记忆机制：

现有的问题在于：这些记忆机制大多还处于"能跑但不够可靠"的阶段。写入的节奏、检索的时机、遗忘的策略——都是 open problem。

换句话说：模型能力已经不是瓶颈了，记忆系统才是。

如果说前两层讨论的是"AI 如何记住知识"，那么 Spec-Driven Development 的反思指向了一个更实际的问题：谁来维护团队的"记忆"？

代码规范、技术文档、设计决策……这些都是团队的集体记忆。问题是，人类写不好文档——永远滞后于代码，永远被视为额外负担，永远表达模糊而非精确。

而 AI Agent 没有"额外工作"的概念。写代码和写文档都是 token 消耗，Agent 没有偏好。

这篇分析的结论很有冲击力：Spec-Driven 2.0 = 人类描述意图 → Agent 生成结构化规范 → 人类审查 → Agent 生成代码 → Agent 自动同步更新文档。

人类的角色从"文档作者"变成"意图定义者 + 规范审查者"。从"写"变成"审"。规范维护成本趋近于零——因为代码变更时，Agent 会自动检测过时内容并生成更新草稿。

这本质上是团队的集体记忆终于有了可靠的维护者。

层次	谁在管记忆	维护方式	当前瓶颈
个人知识库	LLM + 人	Wiki 自动编译	规模阈值之后的自我进化
Agent 系统	Agent 自身	记忆机制设计	可靠性与一致性
工程规范	Agent	Spec 自动同步	人类能否真正放手"审"

三个层次，三种场景，但底层逻辑完全一致：

知识/上下文/规范——这些"记忆"让人类来维护，成本太高、效率太低、永远滞后。AI 自己维护，才是终态。

AI Agent 的上半场，大家都在问：模型够不够强？

下半场，真正的问题是：它能不能记住，并且记住的东西靠不靠谱？

这才是接下来最值得投入的方向。