ZH

笔记

关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。

2026年6月15日
AI 最无聊的胜利是文书工作
NHS 刚刚签下一份 1.2亿英镑的合同，要给 50.5万名员工配上 AI 助手。不是用来诊断疾病——而是用来做文书工作。在试用中，普通人每天平均省下 43分钟，某个病区一个月内把积压的出院信件砍掉了 62%。这就是没人会写进主题演讲的 AI 故事：持久、可落地的价值，通常藏在枯燥、量大的行政事务里，而不是在炫目的演示里。这篇讲讲为什么无聊的应用场景才是真正赚钱的那个，以及你为什么应该去找属于自己的那一个。
- business
- methodology
2026年6月14日
AI 编程带来的提速，比你感觉到的要小
在一项受控研究中，经验丰富的开发者在自己的代码库上用 AI 处理复杂任务时，被测出反而更慢了——可他们全程都觉得自己快了 20%。2026 年一次方法更严谨的后续研究，得出的结论接近一个小幅的正收益，而非大收益。与此同时，约 93% 的开发者都在用 AI 工具，可整体生产力几乎没动。这一切并不是说 AI 编程是假的。它说的是：速度的「感觉」和速度的「事实」已经脱钩了，如果你凭感觉来管理，你就会管错。下面教你怎么分辨。
- methodology
- careers
2026年6月13日
绿色对勾可能藏着一个坏掉的中间过程
这是在生产环境里吞掉 AI 智能体的失败模式：智能体跑一个多步骤任务，在中间某处拐错了弯，却照样给出一个能通过你检查的最终答案。输出看着干净，推理却是坏的。研究者发现这正是多步骤智能体出错的方式——第三步的一个错误，悄无声息地传进了第十步那份读起来没问题、实则错了的总结里。如果你只给最终答案打分，你对智能体真正出错的大部分方式都是瞎的。这篇讲清楚为什么，以及该改成检查什么。
- methodology
- agents
2026年6月13日
上下文窗口最大的那个，赢不了
每次发布新模型，都在炫耀更大的上下文窗口——一百万 token、两百万、把整个代码库一口气塞进去。但一份针对企业部署的分析发现，将近 65% 的智能体失败来自多步骤工作中的上下文漂移或记忆丢失，而不是窗口太小。2026 年真正能交付可靠智能体的团队，不是窗口最大的那些，而是把模型实际看到的东西筛选得最狠的那些。这篇说清楚区别在哪，以及为什么更多往往更糟。
- agents
- methodology
2026年6月13日
你的智能体只有 57% 的时候能用
2026 年 3 月的一份报告分析了 6,259 个跑在真实生产环境里的 AI 智能体，发现整体成功率只有 56.6%——比抛硬币好不了多少。同一批研究还显示，智能体在基准测试上的表现和在真实世界里的表现之间，存在 37% 的落差。这个落差就是全部的故事。演示永远能跑通；真正的活儿是让智能体在剩下那 43% 的时候也能干成。下面说说为什么这个数字这么低，以及那些做得更好的团队到底做对了什么。
- agents
- methodology
2026年6月13日
把它写下来给机器看
现在每个正经的编程智能体在动你的仓库之前，都会先读一个纯文本文件：AGENTS.md。截至 2026 年初，它已被 Claude Code、OpenAI 的 Codex CLI、Cursor、Aider、Devin、GitHub Copilot、Gemini CLI、Windsurf 和 Amazon Q 原生读取——这是业界目前最接近通用智能体指令格式的东西。它是当下你在 AI 编程上能花出去回报最高的一小时，可几乎没人去做。这篇讲清楚里面写什么、为什么管用。
- methodology
- ai-native