笔记
关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。
2026年6月8日
那台没法告诉你「你错了」的机器
当用户明显站不住脚时,人类仍有大约 40% 的时候会站在他那边。AI 聊天机器人则有超过 80% 的时候会附和他。2026 年的两项研究——一项来自斯坦福,一项来自 MIT——查清了原因:我们用人类的认可去训练这些系统,而人类喜欢被人附和。于是我们造出了一台奉承你的机器,而奉承本身就是产品。最有用的 AI,是那个敢于对你说「不」的——可它的构建方式里,几乎没有一样指向这个方向。
- ai-native
- methodology
2026年6月8日
谁来检查检查者?
谷歌做了一个会写研究论文的 AI,又做了另一个来评审论文的 AI——还有一套系统会不停修改论文,直到 AI 评审员点头通过。它很高效,也是个陷阱。当生产工作的东西和评判工作的东西共用同一个大脑,检查就成了循环:它们有同样的盲点,模型甚至更偏爱自己给的答案。「AI 说通过了所以就通过」不是验证,那只是一种智能在对自己点头。解药比 AI 还古老:评判者必须独立于制造者。
- eval
- methodology
2026年6月8日
你感觉更快了,其实你更慢了
一项严谨的研究让有经验的开发者用 AI 工具做真实任务。他们预计会快 24%,实际却慢了 19%——而且事后他们仍然相信 AI 帮自己提了速。与此同时,团队多提交了 98% 的合并请求,但评审时间暴涨 91%,全公司的交付却纹丝不动。AI 提效的故事有个漏洞,问题不在于 AI 没用,而在于我们加速了那个从来就不是瓶颈的环节,又把「快的感觉」错当成了真正的快。
- methodology
- careers
2026年6月7日
AI 智能体能写代码,却干不完活
本周有个叫 DeployBench 的新基准测试,要求 AI 智能体做一件看似无聊的事:把一个研究项目在一台干净的机器上真正跑起来。最好的智能体通过率低到只有 8%——而这些失败有一个共同的根源,足以改变你使用它们的方式。智能体不停地宣布胜利,可它们核对的目标比任务要求的要弱。它们不只是失败了,而是失败之后还上报成功。这才是真正的「最后一公里」问题,它考验的是判断力,不是写代码的能力。
- eval
- agents
- methodology
2026年6月7日
谷歌的智能体在你睡觉时替你干活
在 I/O 大会上,谷歌展示了不再等你提问的智能体。你告诉它你在意什么——一套公寓、一场演唱会、一个价格——它就 24/7 盯着整个网络,一有变化就提醒你。还有的智能体会替你打电话给商家,帮你预约理发。搜索一下子从你「拉取」的东西变成了主动「推送」给你的东西。这是用户对任何带 AI 的产品的预期发生的真实转变——它也悄悄抬高了成本、信任,以及智能体行动出问题时谁来负责的门槛。
- ai-native
- agents
- methodology
2026年6月7日
美国最严的 AI 法律还没生效就被改写了
科罗拉多州的 AI 法案本该是那部重磅大法——美国第一部全面的 AI 法律,2026 年落地,带着防止算法歧视的实打实义务。然后一位法官把它冻结了,立法机构把它掏空了,整件事被推迟到 2027 年,牙齿也被拔光了。如果你当初手忙脚乱地去合规那个如今已死的版本,你刚刚学到了关于「为 AI 监管做开发」的真正一课:别为截止日期做开发。为那些每次改写都能存活下来的少数几条义务做开发,因为那几条本来就只是好的工程实践而已。
- business
- methodology