fedorthinks
全部笔记

AGENTS · 2026年7月3日

会重写自己的智能体没有规格可言

新的卖点是「自我进化」的智能体——它在运行时自行调整行为,于是你永远不用去更新它。ServiceNow 和 NVIDIA 刚把这么一个东西对准了你的桌面。但生产软件最需要的东西只有一样:一个你能拿来做校验的固定目标。一个会重写自己逻辑的智能体,就是一套「你测过的东西不等于下周在跑的东西」的系统。让它在你能读、能重置的数据里学习——绝不要让它在你无法盯着看的行为里悄悄改变。

会重写自己的智能体没有规格可言

眼下在智能体营销里默默扛大梁的词,是 自我进化。这种智能体不只是跑你的工作流——它一边跑一边重写自己的工作方式,从每一次运行里学习,于是你不用动手它就越用越好。ServiceNow 和 NVIDIA 刚把这个想法搬上了你的桌面: Project Arc,一个「长时运行、自我进化」的自主智能体,它会读你的文件、打开你的终端,并且「在事情出乎意料时自我调整」。

听上去像是梦想成真。可它恰恰也是让一套系统在生产环境里无法被信任的那个特性。

生产环境靠的是一个待在原地的目标

我们用来交付可靠软件的每一门功夫,都假设了一件事:行为在足够长的时间里是固定的,久到能被检查。你写测试,是因为它底下的代码不会动。你审查一处改动,是因为有一个 之前 和一个 之后。你能回滚,是因为上周那个版本仍然是个存在的东西。把固定目标拿走,这些工具就一件件全都失灵。

自我进化的智能体是 故意 把它拿走的。你在沙箱里测过的那个版本,到周四又学会了三件新东西。你的安全团队签字放行的那个行为,并不是事故发生时正在跑的那个行为。没有干净的回滚,因为「上一个版本」是一条连续漂移上的一个模糊的点,而不是一个打了标签的发布。

如果系统在测试和事故之间重写了自己,那你的测试测的就不是那个出故障的系统。你校验的是一个幽灵。

自我改进不过是包装更好的失控漂移

我们已经知道长时运行的智能体会随距离退化——任务长度翻一倍,失败率大约翻两番。「自我进化」并不能修好这一点;它只是把唯一能让你抓住问题的那样东西给拿走了。当变化的是智能体自身的逻辑时,你没法把改进和衰退区分开来,直到它已经摆到客户面前。这不是学习。这是漂移,被打扮成了一个功能。

再注意一下 Project Arc 认真的那一半到底靠的是什么:不是自我进化,而是围绕它的治理——一个沙箱化的运行时、一个记录每一次文件读取和命令执行的控制塔、限定它能碰什么的策略。卖点是自主。产品是牢笼。这就告诉了你哪一半才是承重的。

让它在你看得见的地方学习

你不必在一个静态的智能体和一个无从追责的智能体之间二选一。你把学习放到一个你能看见、也能撤销的地方:

  • 学习活在数据里,不活在逻辑里。 检索到的样例、记忆行、调过的提示词、一个知识库——这些你能读、能 diff、能删除的东西。智能体的决策过程保持固定、可审查。
  • 每一处改动都是一处你能叫得出名字的改动。 如果更新行为意味着发布一个新提示词或一份通过评测的新配置,那你就有了版本、有了 diff、有了回滚。「它进化了」不是一个版本。
  • 规格才是唯一的事实来源,不是智能体的心情。 把行为写下来,并要求系统对它负责。如果智能体想做规格没覆盖的事,那是一张工单,不是一次即兴发挥。
  • 改进是一次发布,由评测把关。 离线学习,对着一个固定的测试集来衡量,然后审慎地推上去——就是你给任何一次模型变更都会用的那套流程。在线自我修改跳过的,恰恰是那个唯一能抓住回归的步骤。

归根结底

一套在暗处自我改进的系统,从外面看,跟一套在暗处悄悄把自己搞坏的系统毫无分别。工程的全部价值,就在于有能力把这两者区分开来。

让智能体的行为保持固定,把学习放到你能检查、能重置的数据里。「它自己会进化」不是一项可以买来的能力——它是你刚刚扔掉的那套可验证性叙事。

评论

暂无评论

登录以参与讨论。

做第一个分享想法的人。