笔记
关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。
2026年6月3日
大多数 AI 智能体永远到不了生产环境
demo 惊艳无比。然后这个智能体就再也没上线。2025–26 年一份又一份调研都撞上同一道悬崖:几乎人人都有一个 agent 试点,几乎没人把它做进生产环境。原因不在模型——而在那些 demo 让你跳过的、毫不光鲜的工程。下面讲讲那真正能上线的一小撮人做对了什么。
- agents
- eval
- methodology
2026年5月10日
有 eval 才算交付
为什么我拒绝在没有 holdout evaluation set 的情况下交付一个 agent,怎样的 eval 才有用,以及当团队跳过这一步时我反复见到的 failure mode。
- agents
- eval
- methodology