跳过正文
  1. 作品/

大模型为什么没有记忆——67 条一手资料的交叉验证调研

·1172 字· 6 分钟·

一句话结论
#

所谓「大模型没有记忆」不是疏忽,而是 Transformer O(n²) 注意力 + KV cache 显存 + 权重纠缠(灾难性遗忘)+ GDPR 合规 四重约束的均衡解。ChatGPT / Claude / Cursor 的 “Memory” 本质都是把结构化文本塞回 system prompt,模型权重永远不动。Prompt Caching 只是性能优化,不是记忆。未来 1–3 年的主流是 「无状态 LLM 内核 + 有状态 Agent 记忆层」 混合架构。

计算复杂度100M ctx 成本Cache 价格主流 TTL
O(n²)638×H1000.1×5min–24h

1. 为什么 LLM 被设计成无状态
#

四个独立约束叠加,每一个单独都不致命,叠在一起就只剩"无状态"这一种工程解——这个结论来自对 67 条一手资料的交叉验证。

架构约束 · O(n²) 注意力
#

自注意力关于序列长度 n 的计算复杂度是 O(n²),KV cache 显存随 n 线性增长但系数巨大——4096 token 单序列就要约 2 GB 显存,32 并发就 64 GB,比模型权重本身还大。Llama 3.1 在 100M token 上下文中,仅 KV cache 就需要 638 块 H100(约 ¥40,000/小时)。

→ Liu et al. “Lost in the Middle” (TACL 2024) 实证:长上下文不仅算得慢,模型对中段信息的利用呈 U 形曲线,比闭卷还差。

训练约束 · 灾难性遗忘
#

LLM 知识在数十亿权重里高度纠缠,没有"法语模块"或"用户偏好寄存器"可以独立写入。每次 fine-tune 都重塑整个参数景观,旧能力会被覆盖。即便是 LoRA,在 continual learning 场景下仍然受 catastrophic forgetting 困扰(arXiv 2404.16789)。

→ 业界普遍做法是周/天级别的离线 retrain,没人做 per-request 的在线权重更新。

合规约束 · 被遗忘权
#

GDPR 第 17 条和 PDPA 要求数据控制者"不得无故拖延"地删除个人数据。一旦个人数据烘焙进数十亿权重,“被遗忘权"在工程上几乎无法精确执行——你无法从模型中"减去"某个用户的影响。Anthropic 和 OpenAI 都明确表示 Memory 数据存储在外部、不在权重内,这不是技术选择,是法务硬约束。

→ RAG / Memory Layer 击败 fine-tuning 的根本原因是合规,不是技术优劣。

安全约束 · 持久记忆 = 持久攻击面
#

ChatGPT Memory 已被多次 prompt injection 攻破:通过 Google Doc / 图片 / 网页让模型调用 to=bio 写入恶意持久指令,从此影响所有未来对话(Embrace The Red 博客, 2024)。这正是 Cursor 1.0→1.2 给 Memories 强制加 user approval 的原因,也是 Anthropic 专门测试 sycophancy / harmful conversation 后才发布 Memory 的原因。

Karpathy 的权威类比权重 = ROM(训练时烧入,静态);context window = RAM(推理时活跃,可直接寻址);KV cache = working memory(test-time 形成的工作记忆);外部 vector / KG store = disk(持久但要 retrieve)。原话:“权重里的知识是对训练时互联网文档的 hazy recollection;而 context window 里的内容是 directly accessible 的” — Andrej Karpathy, Dwarkesh Patel 专访 (2025-10)。

2. 主流产品的"记忆"策略对比(含 Cache vs Memory 辨析)
#

14 个主流产品,没有任何一个真的修改了模型权重。在这节我们同时辨析三个常被混为一谈的概念:

  • Cache(KV / Prompt Caching):缓存 attention 层的 K、V 投影张量,前缀逐 byte 匹配命中后跳过 prefill。生命周期 5min–24h。本质是算力优化,不是"记住"任何东西。
  • Memory(产品层):文本存储在外部数据库 / 向量库 / markdown 文件里,每次调用拼到 system prompt 头部。用户可控。
  • 真模型记忆(权重内):改变模型权重本身。受灾难性遗忘、GDPR 被遗忘权、可解释性三重打击,业界普遍回避。

14 产品对比
#

产品策略本质权重变?
ChatGPT Memory4 层: 元数据 + bio + ~40 条摘要 + 滑窗MemoryNo
OpenAI Prompt Caching≥1024 token 自动 KV 缓存, 5min–24h TTLCacheNo
Anthropic Prompt Caching显式 cache_control ≤4 断点, 逐 byte 匹配CacheNo
Gemini Context CachingImplicit 90% 折扣 + Explicit 60min TTLCacheNo
Claude.ai Projects项目说明 + 文件 + 历史, 全量塞 promptMemoryNo
Claude Memory (2025-10)项目隔离, 24h 合成, 可视可编辑可导出MemoryNo
Claude CodeCLAUDE.md + 模型自写 MEMORY.md (200 行)MemoryNo
Cursor Rules / AGENTS.md静态 markdown, 4 触发模式, Team > Project > UserMemoryNo
Cursor Memories (1.0+)AI 生成候选 → 用户审批 → 写入MemoryNo
Cursor Codebase IndexMerkle 树 + 加密 + Turbopuffer 向量库RAGNo
Windsurf Cascadeglobal + workspace rules + 自动 Memories + RAGMemoryNo
Devin Knowledge人写 + AI 建议 + DeepWiki + VM SnapshotsMemory+RAGNo
Replit CheckpointsVM 快照 = 文件 + DB + 对话 + Agent memorySnapshotNo

斜体行 = Cache/RAG/Snapshot 类;粗体行 = Memory 类。没有一个产品改权重。

关键反向工程证据:Manthan Gupta 三次实验证实:问 ChatGPT 一年前讨论过的具体话题,它根本不知道。ChatGPT Memory 没有用 RAG,存的只有:会话元数据 + 几十条 bio 条目 + 最近 ~40 个聊天的用户消息摘要(不存 ChatGPT 自己的回复)+ 当前滑窗。Cursor 官方文档第一句更直白:“Large language models don’t retain memory between completions. Rules provide persistent, reusable context at the prompt level.”

3. 未来范式:四层混合栈
#

自下而上:底层永远无状态,上面三层是"给它装记忆"的不同抽象。L4(Agent 记忆层)是短期主流,L2(架构内记忆)是最值得押注的研究跃迁。

L4 · Agent 记忆层
#

商业最成熟

把 LLM 视为无状态 CPU,“记忆"放在外部数据库 + Agent runtime,每次推理把检索结果拼回 prompt。代表:Letta (MemGPT) · Mem0 · Zep + Graphiti · LangGraph Store · AutoGen Memory

  • ✅ 可审计 · 可删除 · 模型无关
  • ⚠️ retrieval 质量决定上限 · 写入污染累积
  • Mem0 在 LoCoMo benchmark 上比 OpenAI Memory 高 26%、p95 延迟降 91%、token 降 90%

L3 · 超长上下文
#

已商业化

把记忆塞进超长 context window。代表:Gemini 2M (needle 召回 >99%) · Magic LTM-2-Mini 100M tokens。

  • ✅ 会话内最佳载体
  • ⚠️ Lost-in-the-middle 仍未解 · 100M ctx 单用户 638×H100

L3 和 L4 是互补不是替代:超长上下文处理会话内的即时关联,Agent 记忆层处理跨会话/跨年的持久记忆。将两者组合是当前工程上的最优解。

L2 · 架构内记忆
#

研究价值最高

把"持久记忆"做成可微模块嵌入网络——这可能是真正改写格局的方向。代表:Google Titans (短期 attention + 长期 neural memory) · Infini-attention · Mamba-2 · RWKV-7 Goose

  • ✅ 常数显存 · 线性时间
  • ⚠️ 尚未规模化验证(需 ≥70B / ≥10T token 训练才能证明可行性)

L1 · 裸 LLM(frozen weights)
#

永远无状态

GPT / Claude / Gemini / Llama 内核。每次推理是新进程,权重不变。Continual learning 短期内不会成为 per-user 记忆主路。LoRA 用于领域/角色特化,不是 per-user。


4. 记忆经济学:为什么 Cache TTL 是隐藏定价开关
#

这条暗线在全篇中最被低估。

Anthropic 在 2026-03 把默认 cache TTL 从 1h 静默降到 5min,导致 Claude Code 用户实测多花 17–26%。没有任何公告,没有 SLA 承诺。这条改变暴露了一个残酷的事实:cache TTL 是直接影响用户单价、但不在任何 SLA 上的隐藏开关

指标数值
Anthropic TTL 调整后成本上浮17–26%
Cache 费用占比透明度0%(完全隐藏)
100M ctx 硬件成本(单用户)~¥40k/小时
SLA 中 cache TTL 承诺0 条

如果推演下去:未来的"记忆经济学"会越来越像云存储——分层(5min/1h/24h/永久)、可定价(微调 TTL 就是反向定价)、可锁定(agent 工作流依赖特定 cache 策略后迁移成本极高)。


5. 3 年范式演进地图
#

基于 Anthropic、Letta、Karpathy、LeCun 等来源的判断。2026 年主流配置有较高确信,2027–2028 为推断,含不确定性。

年份工业主流配置可能的黑马事件
2026裸 LLM + Agent 记忆层 (Mem0/Zep/Letta) + 长上下文 cachingTitans 系架构开始小规模商用;Sleep-time Compute 成 agent 标配
2027Reflection / Sleep-time / TTT 进入主流 Agent 框架原语某 SSM/Hybrid 7B 在 long-context benchmark 全面超 Transformer
2028顶级模型可能集成 in-arch memory module(高风险预测);否则 Memory Layer 仍是标配LeCun H-JEPA + LLM 混合原型出现(5–10 年的早期信号)
2028 预测需谨慎:Titans 等架构内记忆方案需要 ≥70B 参数、≥10T token 训练才能规模化验证,目前仅在 arXiv。2028 年更可能的场景是 Agent 记忆层和架构内记忆共存,而非后者取代前者。

6. 给工程师的 9 条实用结论
#

  1. 不要把 Cache 和 Memory 混为一谈:Cache 是算力优化(跳过 prefill),Memory 是产品层决定把什么塞进 prompt。两者完全正交。

  2. 写记忆就是写 system prompt:凡是能用 markdown 写下来的项目约定(Cursor Rules / CLAUDE.md / AGENTS.md),永远比"让 AI 自己记"更可控、可 diff、可版本管理。

  3. 拼前缀顺序: static → dynamic:工具定义、System prompt、项目规则放最前;当前用户输入放最后。OpenAI / Anthropic / Google 三家文档的一致顶级建议。

  4. Compaction 必须 cache-safe:不要为 summarization 单开新 system prompt——会让全长对话按 uncached 全价重算。Claude Code 称之为 “cache-safe forking”。

  5. TTL 是产品决策不只是工程参数:Anthropic 1h→5min TTL 事件的教训。把 TTL 作为可配置项暴露给用户,否则用户会在账单里发现你的隐藏定价。

  6. AI 写、人审批 = 当前最稳的"自动 Memory"形态:Cursor 1.2 加 user approval、Devin 默认走 suggestion 流,是被反复 prompt injection 教训之后的设计共识。

  7. 可视、可编辑、可导出 = trust:Anthropic 的 “natural language synthesis” 差异化和 ChatGPT 不透明合成,正反两面证明了这点。

  8. 隐私模式与 Cache 有矛盾:OpenAI Extended cache 失去 ZDR 资格、Cursor 隐私模式不存原文——把"性能 vs 隐私"作为两档让用户选。

  9. 真正的护城河是"上下文工程"不是"记忆模型”:把记忆写成 deterministic、version-controlled、人类可读的状态,curation cost 是一次性的,benefit 是 compounding 的。


7. 关键引用源
#

全部为 2024–2026 年一手资料。共 30+ 条精选,涵盖原厂文档、arXiv 论文、研究者原文。

A. 厂商一手资料
#

OpenAI

Anthropic

Google

Cursor / Windsurf / Devin / Replit

B. 关键论文
#

架构 / 长上下文

Memory Layer / Agent 记忆

Continual Learning

C. 范式判断 (Karpathy / LeCun / Raschka)
#

D. 工业框架
#


调研方法:三路并行子代理(技术原理 + 产品 API 设计 + 未来范式),交叉验证四个信息源(Exa、Tavily、Context7、WebSearch)。共 67 条一手 URL,时效 2024-Q1 至 2026-Q2。

Liu ZhuoQi
作者
Liu ZhuoQi
把 AI Agent 做进真实产品里。写代码,也写思考。记录 AI Agent 开发、工具工程与产品落地的实战笔记。

相关文章

大模型为什么没有记忆——67 条一手资料的交叉验证

这不是一篇"AI 科普"——这是一次用 Exa / Tavily / Context7 / WebSearch 四源交叉验证,覆盖 67 条一手资料 的硬核调研。如果你在给 Agent 系统设计记忆层,或者想搞清楚 ChatGPT Memory / Claude Memory / Cursor Rules 到底是怎么回事,这篇是你要看的东西。 → 完整报告(含 14 产品对比表、9 条工程结论、3 年范式演进地图) 一句话结论 # 所谓「大模型没有记忆」不是疏忽,而是 O(n²) 注意力 + KV Cache 显存 + 灾难性遗忘 + GDPR 合规 四重约束的均衡解。ChatGPT / Claude / Cursor 的 “Memory” 本质都是把结构化文本 塞回 system prompt,模型权重永远不动。未来 1–3 年的主流是 「无状态 LLM 内核 + 有状态 Agent 记忆层」 混合架构。

Why LLMs Have No Memory — A Cross-Validated Research Report with 67 Primary Sources

·1623 words· 8 min
1. Why LLMs Are Stateless # Four independent constraints — individually manageable, together they leave “stateless” as the only viable engineering solution. This conclusion is cross-validated across 67 primary sources. Architecture: O(n²) Attention # Self-attention scales at O(n²). A single 4096-token sequence needs 2 GB VRAM for KV cache; 32 concurrent sessions hit 64 GB — more than the model weights themselves. Llama 3.1 at 100M context requires 638 H100 GPUs ($5,400/hour) for KV cache alone.

Why LLMs Have No Memory — A Research Report Covering 67 Primary Sources

This is not AI科普. This is a cross-validated research sprint backed by 67 primary sources — vendor docs, arXiv papers, and researcher interviews — on a question every Agent builder hits: why don’t LLMs remember anything? → Full report: 14-product comparison table, 9 engineering takeaways, 3-year paradigm roadmap The One-Liner # Four independent constraints — O(n²) attention + KV cache VRAM + catastrophic forgetting + GDPR right-to-be-forgotten — stacked together leave “stateless” as the only viable engineering solution. Every “Memory” feature you’ve seen (ChatGPT, Claude, Cursor) is structured text injected into the system prompt. Zero weight modification. The next 1–3 years belong to stateless LLM kernels + stateful Agent memory layers.