ARCHITECTURE · 2026年6月4日

你的 agent 是无状态的。这就是它们会死的原因。

你的 agent 在自己的笔记本上从头跑到尾，所以你从没见过问题。而生产环境是一个漫长的多步骤过程，跑在会重启、会超时、会中途崩溃的基础设施上——偏偏你的 agent 把所有进度都存在内存里。2026 年的「agentic reckoning」，就是人们终于发现：失败的不是模型，而是运行时。解法既老又无聊：持久化执行（durable execution）。这是诚实版本。

在你的笔记本上，agent 一口气从头跑到尾，你从来看不到问题。它思考、调用几个工具、跑完、结束。看起来很扎实。

生产环境是另一种生物。在那里，agent 是一个漫长的多步骤过程，跑在会重新部署、会杀掉占用内存过多的容器、会让连接超时的基础设施上——而且这些是家常便饭，是生活的事实。典型的 agent 把它所有的进度都放在同一个地方：内存。所以进程一眨眼，五十步昂贵的工作就灰飞烟灭，agent 从零开始重来。在一个要跑好几个小时的工作流上这么干，它可能根本就跑不完。

reckoning：是运行时的锅，不是模型的锅

如今这种顿悟有了名字。VentureBeat 把它叫做「agentic reckoning」，论点很精确：企业正在发现，失败点不是模型的推理能力，而是运行时。 那些用「Python scripts、LangChain 链、临时拼凑的编排」黏起来的 agent 撑不过生产环境，不是因为它们不够聪明，而是因为它们是 无状态（stateless） 的——它们对自己已经做过的事情没有任何持久的记忆。一篇关于运营现实的文章说得很直白：容器重启会抹掉上下文，而对于长时间运行的 agent（超过四小时），没有状态持久化的系统因为一次超时或一次基础设施抖动就会承担 高出 90% 的整体任务失败风险。

这正是每一场「模型够不够聪明」的争论里被漏掉的部分。你的 agent 不是因为不会推理才死的。它是因为它是一个假装成系统的脚本，跑在一个根本不在乎它有多聪明的基础设施上，所以才死的。

而且现在它还是一场烧钱的火

无状态过去只让你损失时间。在 2026 年，它还要外加一份 token 账单。当一个 100 步的 agent 在第 47 步崩溃、然后从第 1 步重启时，你损失的不只是时间——你还得为第 1 步到第 47 步已经烧掉的所有 token 再付一遍钱，然后把它们再烧一遍。一个无状态的长时间运行 agent，是一个可靠性问题，也是一个成本控制问题，穿着同一件外套。工作中最昂贵的那部分，恰恰是你不断扔掉、又不断重做的那部分。

解法已经四十年了（又一次）

解药不是更聪明的模型，也不是更巧妙的 prompt。它是持久化执行（durable execution），跟几十年来跑银行批处理作业和订单流水线的，是同一个思路：每完成一步就把它持久化下来，进程死了就从你停下的地方继续，而不是从头开始。

Temporal，这方面最知名的引擎，把这个模型描述得很干净：它把工作流的每一步都记录成一份不可变的事件历史，所以如果进程在 100 步中的第 47 步死掉，它会重放日志并在第 48 步恢复——而不是第 1 步。 agent 获得了一份关于自己进度的记忆，这份记忆能熬过崩溃、重启和重新部署。这并不新鲜；这就是检查点、saga 和幂等性——任何严肃的长时间运行作业的管道工程。正如一位工程师所说，agent 工作流不过是在重新发现持久化执行。市场也认同它是承重墙：Temporal 在 2026 年初以 50 亿美元（$5B）估值完成了 3 亿美元（$300M）的融资，而 LangGraph 和 Vercel Workflows 一直在抢着加上同样的保证。

诚实的那个坑

持久化执行是必要的，但不是魔法，而且这里有一个微妙之处，你得尊重它，否则它会反咬你。重放的工作原理，是重新跑你的工作流，并复用它已经做完的每一步的日志（journal）结果。但一次 LLM 调用是非确定性的——跑两次会得到两个不同的答案。所以你不能就这么让重放去重跑它。你必须把每一次模型调用（以及每一次有副作用的工具调用）包装成一个被记录下来的「activity」，它的结果在第一次运行时被记入日志（journaled），在重放时永远不会被重新执行。把这个边界搞错，你的「恢复」就会悄悄地把工作做两遍——并向你收两遍钱。这是实打实的工程，不是一个你撒上去就完事的库。

重点

生产环境里的 agent 是一个长时间运行的分布式进程。我以前论证过，一个多 agent 系统就是一个分布式系统，也会像分布式系统那样失败；这是同一个真相，往下一层。把 agent 当成它必须成为的那种持久、可恢复的进程来对待——检查点化的状态、幂等的步骤、你真正测试过的恢复——否则就接受每一次容器重启都会把它打回零的现实。

你的 agent 不是因为不够聪明才失败的。它失败，是因为它对自己已经做过的事情没有记忆，而它所栖身的基础设施会不断地从它脚下抽走地毯。给它持久的状态，否则就看着它死在第 47 步——一遍又一遍，每次都付全价。

暂无评论

登录以参与讨论。

做第一个分享想法的人。