笔记
关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。
2026年6月4日
基准测试拿了 87%,却依然无法演进你的代码库
标题写着 AI「解决了 87% 的 SWE-bench」,所有人都理解成「AI 现在能做软件工程了」。这里有两个问题。小问题:约三分之一的通过要么泄露了答案,要么测试太弱。致命问题:基准测试衡量的是一次孤立的 bug 修复,而不是真正的工作——在数周内演进一个活的代码库。一旦真正去衡量这件事,同样的模型会从约 73% 跌到约 25%。基准测试是 demo,你的代码库才是生产环境。
- eval
- agents
- methodology
2026年6月4日
你的 agent 是无状态的。这就是它们会死的原因。
你的 agent 在自己的笔记本上从头跑到尾,所以你从没见过问题。而生产环境是一个漫长的多步骤过程,跑在会重启、会超时、会中途崩溃的基础设施上——偏偏你的 agent 把所有进度都存在内存里。2026 年的「agentic reckoning」,就是人们终于发现:失败的不是模型,而是运行时。解法既老又无聊:持久化执行(durable execution)。这是诚实版本。
- architecture
- agents
- methodology
2026年6月4日
Tokenmaxxing:当古德哈特定律盯上了 AI
企业想要‘AI 采用率’,于是它们衡量了最容易测的代理指标——token 用量——把它做成排行榜,结果如愿以偿地得到了它们衡量的东西:人们拼命烧 token 去爬榜,而不是把活干得更好。这是一条五十年历史的定律,正在吞噬一套全新的战略,而且现在它要付两次代价:你为浪费掉的 token 买单,又毒化了你本想得到的信号。解法同样古老——衡量结果,而不是衡量活动。
- methodology
- business
2026年6月4日
你的组织架构图跑不了 agent
每个高管都在问'模型够好了吗?'新的 MIT 数据说,这问错了问题:85% 的组织想要变得智能体化(agentic),但 76% 承认自己的运营根本支撑不了。真正的阻碍不是模型能力——而是企业把一种全新的工作者硬塞进一张为人类绘制的组织架构图。一个 agent 没有经理、没有晋升通道,只有受限权限和一个幻觉率。这就是你的架构图缺的那个格子。
- business
- methodology
- ai-native
2026年6月3日
大多数 AI 智能体永远到不了生产环境
demo 惊艳无比。然后这个智能体就再也没上线。2025–26 年一份又一份调研都撞上同一道悬崖:几乎人人都有一个 agent 试点,几乎没人把它做进生产环境。原因不在模型——而在那些 demo 让你跳过的、毫不光鲜的工程。下面讲讲那真正能上线的一小撮人做对了什么。
- agents
- eval
- methodology
2026年6月3日
我不再逐一批准 agent 的决定了,现在我只是看着它们。
刚开始做 agent 的时候,我会批准它的每一个动作——感觉这样很负责。其实并不是;批到第三十个'yes'时,我已经在橡皮图章式地批准了,这比完全没有检查点更糟。真正的监督不是经手每一个决定,而是制定策略、观察结果。这就是我从人在环内到人在环上的转变,以及让放手真正变得安全的那套架构。
- agents
- methodology
- ai-native