跳过正文

AI Agent 实战

Claude 工具调用范式转移:Programmatic Tool Calling 与 Dynamic Filter 深度解读

背景:Agent 工具调用的成本困境 # 在传统 Agent 工具调用模型中,每调用一个工具都需要完成一次"模型推理 → 工具执行 → 结果返回 → 模型再推理"的完整回合。这个看似自然的循环,在工具调用变多时会暴露出三个致命问题: 上下文污染:每个工具的结果都被原封不动地注入上下文窗口。查 20 个员工的报销记录,2000+ 条费用明细全部进入 context,即使你只需要知道"哪 3 个人超预算了"。 推理开销:每个工具调用都需要一次完整的模型推理。5 个工具调用 = 5 次推理 pass,每次几百毫秒到几秒不等。 噪声导致准确率下降:当上下文窗口塞满了中间结果,模型不得不在大量噪声中寻找信号。Context Rot 研究 表明,LLM 在复杂任务上的性能会随上下文增长而下降 50-70%。 正如 Bruno 在 Claude Code Architecture Guide 中所指出的:“Outer Loop(模型外的一切:上下文管理、工具调用、验证、记忆巩固)开始比模型推理本身更决定系统质量。” Anthropic 在 2025 年 11 月到 2026 年 2 月间陆续推出的一系列工具使用增强功能,本质上都是为了解决 Outer Loop 的效率问题。其中 Programmatic Tool Calling (PTC) 和 Dynamic Filtering 是最具范式转移意义的两项。

OpenClaw 生产踩坑:当最先进的记忆系统遇到最静默的失败

为什么是 OpenClaw # 编程 Agent 的能力跃迁不只是"更强"–每次代际跃迁改变的是验证循环的归属权。Gen 1 补全时代(Copilot, 2021):人类写、AI 补、人类验证–验证完全在人手里。Gen 2 对话时代(Cursor, 2023):AI 生成代码块、人类审查 diff–验证仍以人为主,但 AI 开始做 lint/fix 的轻量自检。Gen 3 自治时代(Claude Code / Codex CLI / OpenClaw, 2025):AI 写代码、AI 跑测试、AI 看报错、AI 修–验证循环从人转移到 harness。整个 Outer Loop(模型外的一切:上下文管理、工具调用、验证、记忆巩固)开始比模型推理本身更决定系统质量。OpenClaw 是这个趋势里记忆侧最激进、但 harness 稳定性最不足的一个。 同一代内还有一条关键分岔:Vibe Coding(Bolt.new、Lovable、Replit)把验证也扔给用户–“生成即交付”;Engineering Rigor(Claude Code、Aider、OpenClaw)则把验证编码进 harness–测试跑不过就重试。两者的差距不在模型,在 outer loop 的设计哲学。 先看一眼 OpenClaw 的整体架构——用思维导图展示组件层级,后面所有踩坑都跟这些模块有关: mindmap root((OpenClaw)) 📨 消息入口 飞书 企业微信 WebChat Telegram 🔌 Channels 层 消息路由 allowlist 去重 dedup 会话绑定 envelope 🖥️ Gateway 守护进程 WebSocket Server :18789 认证 设备配对 定时任务 CRON 引擎 🔄 Agent Loop 消息摄入 agent RPC 上下文组装 bootstrap session skills 模型推理 多后端 fallback 工具执行 memory shell web 回复生成 流式投递 🧠 Memory 系统 MEMORY.md 长期记忆 每日流水 YYYY-MM-DD.md DREAMS.md 巩固日记 向量 BM25 混合检索 7:3 OpenClaw 是 Gen 3 自治编程 Agent,跨模型 CLI,支持 DeepSeek / Anthropic / OpenAI 多后端。它最吸引我的一点是记忆系统——在当前所有生产可用的编程 Agent 中,它的记忆架构是最激进的: