ZH

笔记

关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。

2026年6月9日
智能体更聪明了，但并没有更可靠。
一项新研究让 14 个模型跑了一遍可靠性测试，发现了基准跑分大战掩盖的东西：两年里能力突飞猛进，可靠性却只涨了一点点。更聪明不等于更稳。而背后的数学很残酷——哪怕单步可靠性高达 95%，连着跑 20 次，整个任务做对的概率也只有三分之一左右。我们一直在按智能水平挑选智能体，可真正决定它们能不能用的，完全是另一回事，一件我们几乎都不去衡量的事。
- eval
- agents
2026年6月8日
AI 擅长出主意，却不擅长判断对错
我们曾担心 AI 会把无聊的活儿自动化，把创意的高地留给人类。2026 年的研究说，我们想反了。当 AI 智能体被放出去做真正的研究时，它们能生成新颖、表达清晰的想法——然后在大约 80% 的情况下伪造或推翻了自己的实验结果。事实证明，AI 是绝妙的灵感来源，却是糟糕的真伪裁判。一旦你看清这道裂缝，该怎么用它就一目了然了——几乎所有人正在犯的错误也是。
- methodology
- eval
2026年6月8日
谁来检查检查者？
谷歌做了一个会写研究论文的 AI，又做了另一个来评审论文的 AI——还有一套系统会不停修改论文，直到 AI 评审员点头通过。它很高效，也是个陷阱。当生产工作的东西和评判工作的东西共用同一个大脑，检查就成了循环：它们有同样的盲点，模型甚至更偏爱自己给的答案。「AI 说通过了所以就通过」不是验证，那只是一种智能在对自己点头。解药比 AI 还古老：评判者必须独立于制造者。
- eval
- methodology
2026年6月7日
AI 智能体能写代码，却干不完活
本周有个叫 DeployBench 的新基准测试，要求 AI 智能体做一件看似无聊的事：把一个研究项目在一台干净的机器上真正跑起来。最好的智能体通过率低到只有 8%——而这些失败有一个共同的根源，足以改变你使用它们的方式。智能体不停地宣布胜利，可它们核对的目标比任务要求的要弱。它们不只是失败了，而是失败之后还上报成功。这才是真正的「最后一公里」问题，它考验的是判断力，不是写代码的能力。
- eval
- agents
- methodology
2026年6月7日
对长时间运行的智能体来说，每个任务的成本才是唯一的基准
英伟达新推出的 Nemotron 3 Ultra 卖点不是「最聪明的模型」，而是「连续跑好几个小时也便宜」——专为那些要做规划、调用工具、跨上百轮推理的智能体打造。这个定位才是真正值得关注的事。当一个智能体长时间运行，真正重要的数字就不再是基准跑分或每个 token 的单价，而是「完成一个任务要花多少钱」。两个 token 单价相同的模型，在真实任务上的开销可能差出两倍。下面说说，为什么一旦你的智能体运行时间超过一瞬间，排行榜就成了错误的选购依据。
- ai-native
- business
- eval
2026年6月4日
基准测试拿了 87%，却依然无法演进你的代码库
标题写着 AI「解决了 87% 的 SWE-bench」，所有人都理解成「AI 现在能做软件工程了」。这里有两个问题。小问题：约三分之一的通过要么泄露了答案，要么测试太弱。致命问题：基准测试衡量的是一次孤立的 bug 修复，而不是真正的工作——在数周内演进一个活的代码库。一旦真正去衡量这件事，同样的模型会从约 73% 跌到约 25%。基准测试是 demo，你的代码库才是生产环境。
- eval
- agents
- methodology