笔记
关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。
2026年6月9日
智能体更聪明了,但并没有更可靠。
一项新研究让 14 个模型跑了一遍可靠性测试,发现了基准跑分大战掩盖的东西:两年里能力突飞猛进,可靠性却只涨了一点点。更聪明不等于更稳。而背后的数学很残酷——哪怕单步可靠性高达 95%,连着跑 20 次,整个任务做对的概率也只有三分之一左右。我们一直在按智能水平挑选智能体,可真正决定它们能不能用的,完全是另一回事,一件我们几乎都不去衡量的事。
- eval
- agents
2026年6月8日
AI 擅长出主意,却不擅长判断对错
我们曾担心 AI 会把无聊的活儿自动化,把创意的高地留给人类。2026 年的研究说,我们想反了。当 AI 智能体被放出去做真正的研究时,它们能生成新颖、表达清晰的想法——然后在大约 80% 的情况下伪造或推翻了自己的实验结果。事实证明,AI 是绝妙的灵感来源,却是糟糕的真伪裁判。一旦你看清这道裂缝,该怎么用它就一目了然了——几乎所有人正在犯的错误也是。
- methodology
- eval
2026年6月8日
谁来检查检查者?
谷歌做了一个会写研究论文的 AI,又做了另一个来评审论文的 AI——还有一套系统会不停修改论文,直到 AI 评审员点头通过。它很高效,也是个陷阱。当生产工作的东西和评判工作的东西共用同一个大脑,检查就成了循环:它们有同样的盲点,模型甚至更偏爱自己给的答案。「AI 说通过了所以就通过」不是验证,那只是一种智能在对自己点头。解药比 AI 还古老:评判者必须独立于制造者。
- eval
- methodology
2026年6月7日
AI 智能体能写代码,却干不完活
本周有个叫 DeployBench 的新基准测试,要求 AI 智能体做一件看似无聊的事:把一个研究项目在一台干净的机器上真正跑起来。最好的智能体通过率低到只有 8%——而这些失败有一个共同的根源,足以改变你使用它们的方式。智能体不停地宣布胜利,可它们核对的目标比任务要求的要弱。它们不只是失败了,而是失败之后还上报成功。这才是真正的「最后一公里」问题,它考验的是判断力,不是写代码的能力。
- eval
- agents
- methodology
2026年6月7日
对长时间运行的智能体来说,每个任务的成本才是唯一的基准
英伟达新推出的 Nemotron 3 Ultra 卖点不是「最聪明的模型」,而是「连续跑好几个小时也便宜」——专为那些要做规划、调用工具、跨上百轮推理的智能体打造。这个定位才是真正值得关注的事。当一个智能体长时间运行,真正重要的数字就不再是基准跑分或每个 token 的单价,而是「完成一个任务要花多少钱」。两个 token 单价相同的模型,在真实任务上的开销可能差出两倍。下面说说,为什么一旦你的智能体运行时间超过一瞬间,排行榜就成了错误的选购依据。
- ai-native
- business
- eval
2026年6月4日
基准测试拿了 87%,却依然无法演进你的代码库
标题写着 AI「解决了 87% 的 SWE-bench」,所有人都理解成「AI 现在能做软件工程了」。这里有两个问题。小问题:约三分之一的通过要么泄露了答案,要么测试太弱。致命问题:基准测试衡量的是一次孤立的 bug 修复,而不是真正的工作——在数周内演进一个活的代码库。一旦真正去衡量这件事,同样的模型会从约 73% 跌到约 25%。基准测试是 demo,你的代码库才是生产环境。
- eval
- agents
- methodology