fedorthinks
全部笔记

AGENTS · 2026年7月1日

任务翻一倍,失败翻两番

人人都想要能干满 8 小时一整天的 agent。可数学不答应。2026 年一篇新论文表明:把任务长度翻倍,失败率不是翻倍——而是大约翻两番,因为每一步那点微小的误差会不断复利叠加。每步 2% 的偏差,在 20 步里就变成 33% 的概率把整个任务搞砸。长时程自主并不是在等一个更聪明的模型。它是个架构问题:拆解、设检查点、验证。

任务翻一倍,失败翻两番

整整一年被推销的那个梦想,是能替你干满一整天的 agent——你早上 9 点交给它一个目标,它埋头干八个小时, 你回来就能拿到一份完成的活儿。Sequoia 甚至给它定了个日期:可靠的 8 小时工作日 agent「到 2026 年底」。 我也很想要这个。但数学对此有意见。

复利之墙

一个由许多步骤组成的任务,只有在 每一 步都成功时才会成功。这是乘积,不是求和。所以误差不是相加—— 是相乘。2026 年的一篇论文《The Long-Horizon Task Mirage》 给出了数字:把任务长度翻倍,会让失败率大约翻两番,而不是翻一倍。区区 每步 2% 的误差,在仅仅 20 个相互依赖的步骤里,就变成 33% 的概率把整个任务搞砸

在十个模型和四档长度上测量,整体 pass@1 从短任务的 76.3% 跌到超长任务的 52.1%——24 个百分点的 超线性下滑。而且问题不只是每步的误差:在 25–30 次工具调用之后,即便是 200K token 的上下文窗口也会跟丢线索 ——模型忘掉早先的结果,把已经做完的步骤又重做一遍。

可靠性不是模型的属性。它是「在没有检查点的情况下,有多少件事必须接连做对」这件事的属性。

为什么更好的模型救不了你

这就是「只要等下一个模型」里的陷阱。把每步误差从 2% 压到 1%,在 20 步里,你还是会有约 18% 的概率失败。 把误差率减半并不能把痛苦减半,因为它在跟一个指数搏斗。在可预见的将来,没有哪个模型好到能让一条天真的 100 步链条变得可靠。曲线赢。

解决办法是架构,不是耐心

那 25% 的 agent 真正跑到生产环境的团队,并不是在跑更长的链条。他们跑的是 更短 的链条,外面裹着结构:

  • **拆解。**把八小时的活儿拆成短的、能独立检查的任务。十个 10 步任务组成的链条、每个之间夹一个检查点, 比一次跑 100 步要强——强得多。
  • **设检查点。**在步骤之间保存已验证的状态,让一次失败只损失一个任务,而不是一整天。别让第 90 步依赖于 模型是否还记得第 3 步。
  • **先验证,再继续。**在每一阶段设一道便宜的检查——确定性的结果、第二个模型、一个 schema——在下一阶段 建立在它之上之前。在那 2% 复利叠加之前就抓住它。
  • **保持窗口干净。**更多回合并不等于更多思考。过了约 30 次工具调用,context rot 就开始了;一个新鲜、 聚焦的上下文,胜过一个塞满 90 步历史的臃肿上下文。

这是我从不同方向反复得出的同一个教训: 一个什么都做的 agent,什么都做不好,还有 编排才是真正的架构。长时程的可靠性,就是拿着秒表的编排。

结论

任务翻一倍,失败翻两番——这不是模型的缺陷,是算术。全天候的自主 agent 之所以到来,不是因为某个实验室 发布了更聪明的大脑;而是因为你不再要求一个大脑把 100 件事接连做对。

别去造一条更长的链。造一条更短的,在每一个环节都检查过。

评论

暂无评论

登录以参与讨论。

做第一个分享想法的人。