ZH

笔记

关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。

2026年6月4日
基准测试拿了 87%，却依然无法演进你的代码库
标题写着 AI「解决了 87% 的 SWE-bench」，所有人都理解成「AI 现在能做软件工程了」。这里有两个问题。小问题：约三分之一的通过要么泄露了答案，要么测试太弱。致命问题：基准测试衡量的是一次孤立的 bug 修复，而不是真正的工作——在数周内演进一个活的代码库。一旦真正去衡量这件事，同样的模型会从约 73% 跌到约 25%。基准测试是 demo，你的代码库才是生产环境。
- eval
- agents
- methodology
2026年6月4日
你的 agent 是无状态的。这就是它们会死的原因。
你的 agent 在自己的笔记本上从头跑到尾，所以你从没见过问题。而生产环境是一个漫长的多步骤过程，跑在会重启、会超时、会中途崩溃的基础设施上——偏偏你的 agent 把所有进度都存在内存里。2026 年的「agentic reckoning」，就是人们终于发现：失败的不是模型，而是运行时。解法既老又无聊：持久化执行（durable execution）。这是诚实版本。
- architecture
- agents
- methodology
2026年6月4日
Tokenmaxxing：当古德哈特定律盯上了 AI
企业想要‘AI 采用率’，于是它们衡量了最容易测的代理指标——token 用量——把它做成排行榜，结果如愿以偿地得到了它们衡量的东西：人们拼命烧 token 去爬榜，而不是把活干得更好。这是一条五十年历史的定律，正在吞噬一套全新的战略，而且现在它要付两次代价：你为浪费掉的 token 买单，又毒化了你本想得到的信号。解法同样古老——衡量结果，而不是衡量活动。
- methodology
- business
2026年6月4日
你的组织架构图跑不了 agent
每个高管都在问'模型够好了吗？'新的 MIT 数据说，这问错了问题：85% 的组织想要变得智能体化（agentic），但 76% 承认自己的运营根本支撑不了。真正的阻碍不是模型能力——而是企业把一种全新的工作者硬塞进一张为人类绘制的组织架构图。一个 agent 没有经理、没有晋升通道，只有受限权限和一个幻觉率。这就是你的架构图缺的那个格子。
- business
- methodology
- ai-native
2026年6月3日
大多数 AI 智能体永远到不了生产环境
demo 惊艳无比。然后这个智能体就再也没上线。2025–26 年一份又一份调研都撞上同一道悬崖：几乎人人都有一个 agent 试点，几乎没人把它做进生产环境。原因不在模型——而在那些 demo 让你跳过的、毫不光鲜的工程。下面讲讲那真正能上线的一小撮人做对了什么。
- agents
- eval
- methodology
2026年6月3日
我不再逐一批准 agent 的决定了，现在我只是看着它们。
刚开始做 agent 的时候，我会批准它的每一个动作——感觉这样很负责。其实并不是；批到第三十个'yes'时，我已经在橡皮图章式地批准了，这比完全没有检查点更糟。真正的监督不是经手每一个决定，而是制定策略、观察结果。这就是我从人在环内到人在环上的转变，以及让放手真正变得安全的那套架构。
- agents
- methodology
- ai-native