fedorthinks
全部笔记

AGENTS · 2026年7月1日

最好的 agent 是最无聊的那个

这个行业把自主性当成目标来卖:给 agent 一个模糊的目标,让它自己去想怎么做。但真正能在生产环境里活下来的系统恰恰相反——受限的工具、确定性的工作流、有边界的决策、人来把关。自主性不是一种你要去最大化的美德;它是一笔你要花掉的预算,而你每花一块,就买来一种新的失败方式。把智能放在那个狭窄的决策里,让它周围的一切都是笨拙、可预测的脚手架。

最好的 agent 是最无聊的那个

能拿到转发的那些 demo 都是自主的:「我给它一个目标就走开了,它把整件事都做完了。」而能在生产环境里活下来的 系统恰恰相反——它们很无聊。工具被锁死、流程固定、选项有限、有个人守在危险的步骤上。看着它工作,大概跟看一个 表单提交一样刺激。这正是重点。

自主性是成本,不是特性

我们被教导把自主性读成「高级」——agent 自己决定的越多,它一定就越聪明。反过来想。你交给模型的每一个决策, 都是一个可能出错的决策,而随着决策变多,失败也在成倍增加。那些真正把 agent 送进生产环境的企业,都是那些 对工具访问、审批阈值和执行范围加以约束 的企业;而那些在砍掉项目的——Gartner 预计到 2027 年底会有超过 40% 死掉 ——往往正是那些以「让它去想」为名,任由范围和成本无限膨胀的企业。

自主性是一笔预算。你委托给模型的每一个决策都是一次取款——而这个账户就是你的可靠性。

agent 与工作流是一条光谱,而大多数任务想要的是无聊的那一端

人们脑子里有一个错误的二选一:要么它是一个能自由推理的 真正的 agent,要么它就是个笨脚本。实际上 这是一条光谱,而对于几乎 每一个生产任务来说,正确的位置都更靠近「带一个聪明步骤的脚本」,而不是「自由游荡的 agent」。一个预订流程 不需要一个 去决定 怎么预订的 agent。它需要确定性的步骤——查可用性、收集信息、写入记录——让模型只做那 一件 真正模糊的事:理解人到底想要什么。

这就是设计上的关键动作:能确定的地方就确定,只在必须的地方才用自主。 模型的智能应该住在那个狭窄的、 无法再化简的模糊决策里。它周围的一切——排序、校验、重试、副作用——都应该是笨拙、可测试、可预测的代码,即使 回路里没有 LLM 你也敢信任它。

为无聊而设计

  • 给它能完成工作的最少工具。 一套精简、agent 用得好的工具,胜过一套宽泛、它用得很有创意的工具。工具 选择上的创意,就是「意外」的同义词。
  • 给每个决策划边界。 枚举好的选项胜过开放式的。「从这三个里挑一个」会以三种已知的方式失败;「你自己想 办法」会以你要在生产环境里才发现的方式失败。
  • 确定性的脚手架,聪明的内核。 把模型那一个需要判断的决策,包进你能写单元测试的代码里。如果一个步骤能 写成函数,就把它写成函数。
  • 给不可逆的东西设关卡。 读取很便宜;任何要花钱、要发消息、要写入生产环境的东西,都得加个上限或加个 人。自主性一直都没问题——直到它变贵的那一刻。

这和 一个什么都做的 agent 什么都做不好 以及 编排才是真正的架构 是同一个教训,只是换成了单个 agent 的 视角:赢的不是一个更自由的 agent,而是一个更受约束、带一个聪明部件的系统。

结论

自主性 demo 起来很漂亮,上线却很糟糕,因为让它显得厉害的那件事——模型什么都自己决定——正是让它不可靠的那件 事。能走到生产环境的 agent,都是那些把自主性当成负债、只在它值回工钱的地方才花掉它的构建者做出来的。

不要去造一个更自主的 agent。去造一个更无聊的系统——能确定的地方都确定,只在必须的地方才聪明——并把人的 关卡放在那些会咬人的步骤上。

评论

暂无评论

登录以参与讨论。

做第一个分享想法的人。