Liu ZhuoQi

AI 应用开发工程师（Agent 方向）

读完 Codex 源码后，我认为最值得企业 Agent 借鉴的是这 5 个设计

2026-08-02·更新于: 2026-08-03·443 字· 3 分钟

AI Agent 工程 Codex OpenAI AI Agent Agent Harness Tool Calling Agent Runtime Skills Goal App Server

可以把 Codex 想成一支小型施工队：模型像会判断下一步的现场负责人，Agent Harness 则是围绕他的派工台、门禁、档案柜和进度看板。源码真正展示的，不只是“负责人会下命令”，而是整套系统如何让工作安全开工、暂停后接着做，并让用户始终知道事情进行到了哪里。很多 Agent 教程只有这样一个循环： 1 2 3 4 5 6 while True: response = model(messages, tools) if response.tool_calls: messages += execute(response.tool_calls) else: return response.text 它没有错，只是省略了真正困难的部分：几张工单能否同时开工？测试十分钟不退出时由谁保管现场？每次查看进度是否都要打扰用户？一句“还在检查”会不会被误认为已经交付？用户不知道操作手册叫什么时，系统能否主动找到？用户明确说“不要停”后，任务怎样跨越多轮处理仍不丢失？这次我没有再从界面现象反推实现，而是阅读了官方 openai/codex 仓库在 commit bb5054f 的 Rust 源码。下文的组件名、状态分支和数值都能在对应源码中找到；产品未来仍可能演进，但这些设计已经足够回答一个问题：企业 Agent Harness 应该替模型承担什么？先看懂：Agent 的一轮 Turn 到底做了什么 # 把一次完整用餐看成一个 Thread：它是整件事情的总账。前菜、主菜和甜点可以是不同 Turn；每个 Turn 都是从“用户提出这一轮要求”到“这一轮结果真正交付”的完整周期。一轮 Turn 像一次点单到上菜：中间可以反复派出多张工具工单，也可以完全不调用工具。顺着图走，一轮通常包含六件事：

Agent 如何记住你：人脑记忆史与六大开源系统代码审计

2026-07-30·1755 字· 9 分钟

深度调研 AI Agent LLM Memory 记忆系统认知科学开源架构

几乎每个 Agent 项目都说自己有「长期记忆」。有的意思是把聊天记录做 embedding，有的意思是维护一份用户画像，有的意思是让模型自己修改 Markdown，还有的已经做到了双时序知识图谱。它们都叫 memory，却不是同一种东西，也不该放在一张跑分榜上直接比较。要判断一个系统是不是真的「会记」，我更愿意问三个问题：一次经历之后，系统里的什么状态发生了变化？这个状态存在哪里，谁能修改，什么时候失效？下一次行动前，它如何被准确、合规地带回来？这篇文章从这三个问题出发。前半段把人类记忆科学与 Agent 记忆技术放在同一条历史轴上；后半段直接读代码，对照 Mem0、Letta、Graphiti、LangMem、Cognee 与 MemoryOS 的宣传卖点、实际数据流、系统边界和对应的记忆范式。先给结论：今天主流的 Agent 并没有获得一种像人脑那样的统一「记忆器官」。工程上真正有效的是一条闭环：经历 → 写入门控 → 表征 → 存储 → 检索 → 上下文组装 → 行动反馈 → 巩固 / 修订 / 遗忘。不同开源项目，只是选择接管这条闭环的不同部分。下面这张图不是某个产品的组件架构，而是全文共用的判断坐标系。它要回答的不是「数据放在哪」，而是「一次过去的经历如何真正影响下一次行动」。阅读时先沿中间的七步主环看信息如何从经历变成行动；再看左侧三种载体，区分当前任务、跨会话记忆与真实世界状态；右侧说明每一步完成的变换，底部则展示长期运行后必须发生的巩固、修订与遗忘。这样能避免把数据库、Context、缓存和真实状态都笼统地叫作“记忆”。

LLM 推理引擎怎么选——2026 年从本地单机到 PD 分离的全景选型地图

2026-07-19·更新于: 2026-07-30·1306 字· 7 分钟

深度调研 LLM 推理引擎 VLLM SGLang 模型部署推理优化选型指南调研报告

阿里云 CAP 有一篇讲推理引擎选型的文章，把候选收敛到四个：Ollama、vLLM、SGLang、Hugging Face Pipeline。这个划分在 2024 年是够用的。但到 2026 年，它至少漏掉了半张地图——NVIDIA 的 TensorRT-LLM 完成了「PyTorch 化」转身、SGLang 因为首个开源复现 DeepSeek 大规模部署而封神、Hugging Face 自己给 TGI 挂上了「维护模式」横幅并劝你改用 vLLM，而整个 2025 年推理引擎领域真正的主线，其实是一个字：拆。这篇文章把这张地图更新到 2026 年年中。它不替你拍板选哪个产品——它给你一套分层框架、一张决策矩阵和一棵决策树，让你自己把候选收敛到 1–2 个。第一张图先解决最常见的比较错误：Ollama、KTransformers 和 vLLM 并不在解决同一层问题。先按本地运行、异构卸载与高性能服务划层，再在层内比较吞吐、格式和硬件支持，才有意义。三层推理地图：L1 追求跑得起与安装简单，L1.5 用内存换显存，L2 追求并发、吞吐和多 GPU 服务。它是分类框架，不是综合排名。为什么 2026 年「选推理引擎」才是个真问题 # 三年前不需要纠结这个。那时候能把一个 7B 模型在 GPU 上跑起来、返回还算流畅的 token 流，就已经过关。

OpenClaw 记忆实战：从「向量搜索挂了也能用」到用 NVIDIA 免费 API 补全最后一块拼图

2026-06-20·更新于: 2026-07-30·544 字· 3 分钟

AI Agent 工程 OpenClaw AI Agent 记忆系统 Embedding NVIDIA 向量搜索 BM25

OpenClaw 记忆系统的向量检索默认不可用——但 BM25 文本搜索兜底让系统照常运转了两周。当你发现「不配 embedding 也能跑」，到底要不要修？怎么用 NVIDIA 免费 API 零成本补上？

OpenClaw 实战：一行路径省掉 84% 的工具调用——Cron Job 排障实录

2026-06-20·更新于: 2026-07-30·561 字· 3 分钟

AI Agent 工程 OpenClaw AI Agent Cron Job SKILL.md Prompt Engineering 性能优化

OpenClaw 的 daily-ai-news 定时任务连续超时。根因不是模型不够强——是 SKILL.md 里少写了一行绝对路径，导致 Agent 每次花 15 次 exec 搜索工具位置。消息数 165→54，exec 调用 44→7，一行路径比任何算法调优都管用。

↑

Liu ZhuoQi

AI 应用开发工程师（Agent 方向）

最近的文章