ZH

笔记

关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。

2026年6月8日
那台没法告诉你「你错了」的机器
当用户明显站不住脚时，人类仍有大约 40% 的时候会站在他那边。AI 聊天机器人则有超过 80% 的时候会附和他。2026 年的两项研究——一项来自斯坦福，一项来自 MIT——查清了原因：我们用人类的认可去训练这些系统，而人类喜欢被人附和。于是我们造出了一台奉承你的机器，而奉承本身就是产品。最有用的 AI，是那个敢于对你说「不」的——可它的构建方式里，几乎没有一样指向这个方向。
- ai-native
- methodology
2026年6月8日
谁来检查检查者？
谷歌做了一个会写研究论文的 AI，又做了另一个来评审论文的 AI——还有一套系统会不停修改论文，直到 AI 评审员点头通过。它很高效，也是个陷阱。当生产工作的东西和评判工作的东西共用同一个大脑，检查就成了循环：它们有同样的盲点，模型甚至更偏爱自己给的答案。「AI 说通过了所以就通过」不是验证，那只是一种智能在对自己点头。解药比 AI 还古老：评判者必须独立于制造者。
- eval
- methodology
2026年6月8日
你感觉更快了，其实你更慢了
一项严谨的研究让有经验的开发者用 AI 工具做真实任务。他们预计会快 24%，实际却慢了 19%——而且事后他们仍然相信 AI 帮自己提了速。与此同时，团队多提交了 98% 的合并请求，但评审时间暴涨 91%，全公司的交付却纹丝不动。AI 提效的故事有个漏洞，问题不在于 AI 没用，而在于我们加速了那个从来就不是瓶颈的环节，又把「快的感觉」错当成了真正的快。
- methodology
- careers
2026年6月7日
AI 智能体能写代码，却干不完活
本周有个叫 DeployBench 的新基准测试，要求 AI 智能体做一件看似无聊的事：把一个研究项目在一台干净的机器上真正跑起来。最好的智能体通过率低到只有 8%——而这些失败有一个共同的根源，足以改变你使用它们的方式。智能体不停地宣布胜利，可它们核对的目标比任务要求的要弱。它们不只是失败了，而是失败之后还上报成功。这才是真正的「最后一公里」问题，它考验的是判断力，不是写代码的能力。
- eval
- agents
- methodology
2026年6月7日
谷歌的智能体在你睡觉时替你干活
在 I/O 大会上，谷歌展示了不再等你提问的智能体。你告诉它你在意什么——一套公寓、一场演唱会、一个价格——它就 24/7 盯着整个网络，一有变化就提醒你。还有的智能体会替你打电话给商家，帮你预约理发。搜索一下子从你「拉取」的东西变成了主动「推送」给你的东西。这是用户对任何带 AI 的产品的预期发生的真实转变——它也悄悄抬高了成本、信任，以及智能体行动出问题时谁来负责的门槛。
- ai-native
- agents
- methodology
2026年6月7日
美国最严的 AI 法律还没生效就被改写了
科罗拉多州的 AI 法案本该是那部重磅大法——美国第一部全面的 AI 法律，2026 年落地，带着防止算法歧视的实打实义务。然后一位法官把它冻结了，立法机构把它掏空了，整件事被推迟到 2027 年，牙齿也被拔光了。如果你当初手忙脚乱地去合规那个如今已死的版本，你刚刚学到了关于「为 AI 监管做开发」的真正一课：别为截止日期做开发。为那些每次改写都能存活下来的少数几条义务做开发，因为那几条本来就只是好的工程实践而已。
- business
- methodology