笔记
关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。
2026年6月4日
Tokenmaxxing:当古德哈特定律盯上了 AI
企业想要‘AI 采用率’,于是它们衡量了最容易测的代理指标——token 用量——把它做成排行榜,结果如愿以偿地得到了它们衡量的东西:人们拼命烧 token 去爬榜,而不是把活干得更好。这是一条五十年历史的定律,正在吞噬一套全新的战略,而且现在它要付两次代价:你为浪费掉的 token 买单,又毒化了你本想得到的信号。解法同样古老——衡量结果,而不是衡量活动。
- methodology
- business
2026年6月4日
你的组织架构图跑不了 agent
每个高管都在问'模型够好了吗?'新的 MIT 数据说,这问错了问题:85% 的组织想要变得智能体化(agentic),但 76% 承认自己的运营根本支撑不了。真正的阻碍不是模型能力——而是企业把一种全新的工作者硬塞进一张为人类绘制的组织架构图。一个 agent 没有经理、没有晋升通道,只有受限权限和一个幻觉率。这就是你的架构图缺的那个格子。
- business
- methodology
- ai-native
2026年6月3日
大多数 AI 智能体永远到不了生产环境
demo 惊艳无比。然后这个智能体就再也没上线。2025–26 年一份又一份调研都撞上同一道悬崖:几乎人人都有一个 agent 试点,几乎没人把它做进生产环境。原因不在模型——而在那些 demo 让你跳过的、毫不光鲜的工程。下面讲讲那真正能上线的一小撮人做对了什么。
- agents
- eval
- methodology
2026年6月3日
一个便宜的模型能搞定 90% 的活
默认做法是把最大、最聪明的模型怼到所有事情上。它在 demo 里跑得很好,然后在规模化时悄悄把你拖垮——因为 agent 做的大部分事情不是推理,而是机械劳动,而你却在花天才的工资让它读一张表单。解法很无聊,但能省下约 90%:让聪明的模型做规划,让便宜的模型干活。下面讲清楚经济账,以及让这一切成为可能的那一条架构准则。
- agents
- architecture
- business
2026年6月3日
我不再逐一批准 agent 的决定了,现在我只是看着它们。
刚开始做 agent 的时候,我会批准它的每一个动作——感觉这样很负责。其实并不是;批到第三十个'yes'时,我已经在橡皮图章式地批准了,这比完全没有检查点更糟。真正的监督不是经手每一个决定,而是制定策略、观察结果。这就是我从人在环内到人在环上的转变,以及让放手真正变得安全的那套架构。
- agents
- methodology
- ai-native
2026年6月3日
锚定不是一个功能。它是一种约束。
LLM 天生就是个猜测者——它永远会编造内容,而你无法用 prompt 把这一点消除。唯一可靠的办法是架构层面的:让一个确定性的数据源掌管事实,把模型降级为一个永远不许自行撰写事实的复述者。'加个 RAG' 并不等于这件事。这里讲清楚两者的区别,以及为什么这是一条分界线——一边是听起来自信的 AI,一边是你能信任的 AI。
- architecture
- agents
- methodology