调研报告 · 卓琪的开发笔记

一句话结论 # 所谓「大模型没有记忆」不是疏忽，而是 Transformer O(n²) 注意力 + KV cache 显存 + 权重纠缠（灾难性遗忘）+ GDPR 合规四重约束的均衡解。ChatGPT / Claude / Cursor 的 “Memory” 本质都是把结构化文本塞回 system prompt，模型权重永远不动。Prompt Caching 只是性能优化，不是记忆。未来 1–3 年的主流是「无状态 LLM 内核 + 有状态 Agent 记忆层」混合架构。计算复杂度 100M ctx 成本 Cache 价格主流 TTL O(n²) 638×H100 0.1× 5min–24h 1. 为什么 LLM 被设计成无状态 # 四个独立约束叠加，每一个单独都不致命，叠在一起就只剩"无状态"这一种工程解——这个结论来自对 67 条一手资料的交叉验证。