跳过正文
  1. 文章/

大模型为什么没有记忆——67 条一手资料的交叉验证

Liu ZhuoQi
作者
Liu ZhuoQi
AI Agent 开发者刘卓琪的个人博客,分享 AI Agent 开发、工具工程和创意编程。

这不是一篇"AI 科普"——这是一次用 Exa / Tavily / Context7 / WebSearch 四源交叉验证,覆盖 67 条一手资料 的硬核调研。如果你在给 Agent 系统设计记忆层,或者想搞清楚 ChatGPT Memory / Claude Memory / Cursor Rules 到底是怎么回事,这篇是你要看的东西。

完整报告(含 14 产品对比表、9 条工程结论、3 年范式演进地图)


一句话结论
#

所谓「大模型没有记忆」不是疏忽,而是 O(n²) 注意力 + KV Cache 显存 + 灾难性遗忘 + GDPR 合规 四重约束的均衡解。ChatGPT / Claude / Cursor 的 “Memory” 本质都是把结构化文本 塞回 system prompt,模型权重永远不动。未来 1–3 年的主流是 「无状态 LLM 内核 + 有状态 Agent 记忆层」 混合架构。

为什么这个问题值得花 67 条资料去研究
#

因为每个做 Agent 的人都会撞到这堵墙:

  • 为什么我让 AI 记住用户偏好,它过 10 轮就忘了?
  • 为什么 Prompt Caching 不能替代 Memory?
  • 为什么所有产品都说有"记忆",但没有一个改模型权重?
  • Mem0、Zep、Letta、LangGraph Store——到底选哪个?

这些问题在 Anthropic/OpenAI/Google 的官方文档、Karpathy 的公开访谈、以及 arXiv 论文里都有答案——但分散在 67 个不同的地方。这篇调研把它们串起来了。

4 层记忆栈
#

自下而上:

  • L1 · 裸 LLM(冻结权重):永远无状态,每次推理是新进程
  • L2 · 架构内记忆:Titans / Infini-attention / Mamba-2,最具研究价值,但尚未规模化验证(需 ≥70B / ≥10T token)
  • L3 · 超长上下文:Gemini 2M、Magic 100M,会话内关联的最佳载体,但 O(n²) 天花板仍在
  • L4 · Agent 记忆层:外部数据库 + Agent Runtime,商业最成熟,Mem0 / Zep / Letta / LangGraph Store

完整四层栈分析 + 14 产品对比表

最适合工程团队的 3 条结论
#

  1. 不要把 Cache 和 Memory 混为一谈——Cache 跳过 prefill(省钱),Memory 决定 prompt 内容(涨能力),完全正交
  2. 写 Memory 就是写 System Prompt——markdown 文件(CLAUDE.md / Cursor Rules)永远比"让 AI 自己记"更可控、可 diff、可版本管理
  3. AI 写 + 人审批 = 当前最稳的自动 Memory 形态——Cursor 1.2 加 user approval、Devin 默认走 suggestion 流,是被反复 prompt injection 教训后的共识

查看完整报告:包含 Karpathy 权威访谈原文、记忆经济学分析、9 条工程实用结论、3 年范式演进地图

相关文章

大模型为什么没有记忆——67 条一手资料的交叉验证调研

·1172 字· 6 分钟
一句话结论 # 所谓「大模型没有记忆」不是疏忽,而是 Transformer O(n²) 注意力 + KV cache 显存 + 权重纠缠(灾难性遗忘)+ GDPR 合规 四重约束的均衡解。ChatGPT / Claude / Cursor 的 “Memory” 本质都是把结构化文本塞回 system prompt,模型权重永远不动。Prompt Caching 只是性能优化,不是记忆。未来 1–3 年的主流是 「无状态 LLM 内核 + 有状态 Agent 记忆层」 混合架构。 计算复杂度 100M ctx 成本 Cache 价格 主流 TTL O(n²) 638×H100 0.1× 5min–24h 1. 为什么 LLM 被设计成无状态 # 四个独立约束叠加,每一个单独都不致命,叠在一起就只剩"无状态"这一种工程解——这个结论来自对 67 条一手资料的交叉验证。

Why LLMs Have No Memory — A Cross-Validated Research Report with 67 Primary Sources

·1623 words· 8 min
1. Why LLMs Are Stateless # Four independent constraints — individually manageable, together they leave “stateless” as the only viable engineering solution. This conclusion is cross-validated across 67 primary sources. Architecture: O(n²) Attention # Self-attention scales at O(n²). A single 4096-token sequence needs 2 GB VRAM for KV cache; 32 concurrent sessions hit 64 GB — more than the model weights themselves. Llama 3.1 at 100M context requires 638 H100 GPUs ($5,400/hour) for KV cache alone.

Why LLMs Have No Memory — A Research Report Covering 67 Primary Sources

This is not AI科普. This is a cross-validated research sprint backed by 67 primary sources — vendor docs, arXiv papers, and researcher interviews — on a question every Agent builder hits: why don’t LLMs remember anything? → Full report: 14-product comparison table, 9 engineering takeaways, 3-year paradigm roadmap The One-Liner # Four independent constraints — O(n²) attention + KV cache VRAM + catastrophic forgetting + GDPR right-to-be-forgotten — stacked together leave “stateless” as the only viable engineering solution. Every “Memory” feature you’ve seen (ChatGPT, Claude, Cursor) is structured text injected into the system prompt. Zero weight modification. The next 1–3 years belong to stateless LLM kernels + stateful Agent memory layers.