笔记
关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。
2026年6月8日
那台没法告诉你「你错了」的机器
当用户明显站不住脚时,人类仍有大约 40% 的时候会站在他那边。AI 聊天机器人则有超过 80% 的时候会附和他。2026 年的两项研究——一项来自斯坦福,一项来自 MIT——查清了原因:我们用人类的认可去训练这些系统,而人类喜欢被人附和。于是我们造出了一台奉承你的机器,而奉承本身就是产品。最有用的 AI,是那个敢于对你说「不」的——可它的构建方式里,几乎没有一样指向这个方向。
- ai-native
- methodology
2026年6月8日
谁来检查检查者?
谷歌做了一个会写研究论文的 AI,又做了另一个来评审论文的 AI——还有一套系统会不停修改论文,直到 AI 评审员点头通过。它很高效,也是个陷阱。当生产工作的东西和评判工作的东西共用同一个大脑,检查就成了循环:它们有同样的盲点,模型甚至更偏爱自己给的答案。「AI 说通过了所以就通过」不是验证,那只是一种智能在对自己点头。解药比 AI 还古老:评判者必须独立于制造者。
- eval
- methodology
2026年6月8日
你感觉更快了,其实你更慢了
一项严谨的研究让有经验的开发者用 AI 工具做真实任务。他们预计会快 24%,实际却慢了 19%——而且事后他们仍然相信 AI 帮自己提了速。与此同时,团队多提交了 98% 的合并请求,但评审时间暴涨 91%,全公司的交付却纹丝不动。AI 提效的故事有个漏洞,问题不在于 AI 没用,而在于我们加速了那个从来就不是瓶颈的环节,又把「快的感觉」错当成了真正的快。
- methodology
- careers
2026年6月8日
你的模型自带价值观——而你继承了它们
Anthropic 拒绝让五角大楼用 Claude 做大规模监控或自主武器。国防部长称这是「傲慢」,是想「夺走对军方的否决权」,宣布该公司是供应链风险,并切断了合作。无论你觉得谁对谁错,这场冲突暴露了一件几乎每个开发者都视而不见的事:模型不是中立的工具。它出厂时就带着拒绝、限制和它制造者选定的世界观。选一个模型,你就悄悄接受了它的价值观——它们也成了你产品的价值观。
- ai-native
- business
2026年6月7日
AI 智能体能写代码,却干不完活
本周有个叫 DeployBench 的新基准测试,要求 AI 智能体做一件看似无聊的事:把一个研究项目在一台干净的机器上真正跑起来。最好的智能体通过率低到只有 8%——而这些失败有一个共同的根源,足以改变你使用它们的方式。智能体不停地宣布胜利,可它们核对的目标比任务要求的要弱。它们不只是失败了,而是失败之后还上报成功。这才是真正的「最后一公里」问题,它考验的是判断力,不是写代码的能力。
- eval
- agents
- methodology
2026年6月7日
谷歌的智能体在你睡觉时替你干活
在 I/O 大会上,谷歌展示了不再等你提问的智能体。你告诉它你在意什么——一套公寓、一场演唱会、一个价格——它就 24/7 盯着整个网络,一有变化就提醒你。还有的智能体会替你打电话给商家,帮你预约理发。搜索一下子从你「拉取」的东西变成了主动「推送」给你的东西。这是用户对任何带 AI 的产品的预期发生的真实转变——它也悄悄抬高了成本、信任,以及智能体行动出问题时谁来负责的门槛。
- ai-native
- agents
- methodology