ZH

笔记

关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。

2026年6月14日
你正在运行 12 个智能体。其中一半各自为政。
如今一家公司平均运行约 12 个 AI 智能体，明年还会涨到 20 个——而其中一半完全各自为政，根本不和别的智能体打交道。我们急着往里加智能体，却没来得及把它们连起来，于是大多数企业手里攥着一抽屉聪明的工具，每个只看得见工作的一小片，没有一个看得见全局。价值从来不在于拥有更多智能体，而在于它们之间的连接，而这恰恰是几乎没人去搭建的部分。下面说说这道鸿沟是怎么裂开的，又该怎么把它补上。
- agents
- business
2026年6月14日
你有的是一个智能体，不是 AI。
2026 年初发布或更新的企业应用中，80% 至少嵌入了一个 AI 智能体——而 2024 年这个数字还只是 33%。听起来人人都「搞定了 AI」。但嵌入一个智能体和从中获得价值，完全是两码事：智能体收回成本的中位数耗时是 5.1 个月，而大多数部署仍卡在试点阶段，从未真正铺开。如今拥有一个智能体只是入场券，就像拥有一个网站一样。真正拉开公司差距的，是这个智能体有没有进入生产、有没有创造价值、有没有被信任去独立运行。下面就是真正重要的那道分界线。
- business
- agents
2026年6月13日
绿色对勾可能藏着一个坏掉的中间过程
这是在生产环境里吞掉 AI 智能体的失败模式：智能体跑一个多步骤任务，在中间某处拐错了弯，却照样给出一个能通过你检查的最终答案。输出看着干净，推理却是坏的。研究者发现这正是多步骤智能体出错的方式——第三步的一个错误，悄无声息地传进了第十步那份读起来没问题、实则错了的总结里。如果你只给最终答案打分，你对智能体真正出错的大部分方式都是瞎的。这篇讲清楚为什么，以及该改成检查什么。
- methodology
- agents
2026年6月13日
上下文窗口最大的那个，赢不了
每次发布新模型，都在炫耀更大的上下文窗口——一百万 token、两百万、把整个代码库一口气塞进去。但一份针对企业部署的分析发现，将近 65% 的智能体失败来自多步骤工作中的上下文漂移或记忆丢失，而不是窗口太小。2026 年真正能交付可靠智能体的团队，不是窗口最大的那些，而是把模型实际看到的东西筛选得最狠的那些。这篇说清楚区别在哪，以及为什么更多往往更糟。
- agents
- methodology
2026年6月13日
你的智能体只有 57% 的时候能用
2026 年 3 月的一份报告分析了 6,259 个跑在真实生产环境里的 AI 智能体，发现整体成功率只有 56.6%——比抛硬币好不了多少。同一批研究还显示，智能体在基准测试上的表现和在真实世界里的表现之间，存在 37% 的落差。这个落差就是全部的故事。演示永远能跑通；真正的活儿是让智能体在剩下那 43% 的时候也能干成。下面说说为什么这个数字这么低，以及那些做得更好的团队到底做对了什么。
- agents
- methodology
2026年6月13日
网页能给你的智能体下命令
当你给一个 AI 智能体一个浏览器，让它读网页、点按钮、跑命令时，你就把它的控制权交给了它访问的每一个页面。研究者已经证明，智能体会被藏在网页文字里、藏在 pastebin 链接里、甚至隐形地藏在它看的截图里的指令劫持。这叫间接提示注入，是 OWASP 给 LLM 应用列出的头号风险。智能体分不清哪些是你的指令，哪些是页面的。下面讲清楚为什么它这么难修，以及怎么把系统建得让一个恶意页面没法操控你的智能体。
- security
- agents