笔记
关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。
2026年6月14日
你正在运行 12 个智能体。其中一半各自为政。
如今一家公司平均运行约 12 个 AI 智能体,明年还会涨到 20 个——而其中一半完全各自为政,根本不和别的智能体打交道。我们急着往里加智能体,却没来得及把它们连起来,于是大多数企业手里攥着一抽屉聪明的工具,每个只看得见工作的一小片,没有一个看得见全局。价值从来不在于拥有更多智能体,而在于它们之间的连接,而这恰恰是几乎没人去搭建的部分。下面说说这道鸿沟是怎么裂开的,又该怎么把它补上。
- agents
- business
2026年6月14日
你有的是一个智能体,不是 AI。
2026 年初发布或更新的企业应用中,80% 至少嵌入了一个 AI 智能体——而 2024 年这个数字还只是 33%。听起来人人都「搞定了 AI」。但嵌入一个智能体和从中获得价值,完全是两码事:智能体收回成本的中位数耗时是 5.1 个月,而大多数部署仍卡在试点阶段,从未真正铺开。如今拥有一个智能体只是入场券,就像拥有一个网站一样。真正拉开公司差距的,是这个智能体有没有进入生产、有没有创造价值、有没有被信任去独立运行。下面就是真正重要的那道分界线。
- business
- agents
2026年6月13日
绿色对勾可能藏着一个坏掉的中间过程
这是在生产环境里吞掉 AI 智能体的失败模式:智能体跑一个多步骤任务,在中间某处拐错了弯,却照样给出一个能通过你检查的最终答案。输出看着干净,推理却是坏的。研究者发现这正是多步骤智能体出错的方式——第三步的一个错误,悄无声息地传进了第十步那份读起来没问题、实则错了的总结里。如果你只给最终答案打分,你对智能体真正出错的大部分方式都是瞎的。这篇讲清楚为什么,以及该改成检查什么。
- methodology
- agents
2026年6月13日
上下文窗口最大的那个,赢不了
每次发布新模型,都在炫耀更大的上下文窗口——一百万 token、两百万、把整个代码库一口气塞进去。但一份针对企业部署的分析发现,将近 65% 的智能体失败来自多步骤工作中的上下文漂移或记忆丢失,而不是窗口太小。2026 年真正能交付可靠智能体的团队,不是窗口最大的那些,而是把模型实际看到的东西筛选得最狠的那些。这篇说清楚区别在哪,以及为什么更多往往更糟。
- agents
- methodology
2026年6月13日
你的智能体只有 57% 的时候能用
2026 年 3 月的一份报告分析了 6,259 个跑在真实生产环境里的 AI 智能体,发现整体成功率只有 56.6%——比抛硬币好不了多少。同一批研究还显示,智能体在基准测试上的表现和在真实世界里的表现之间,存在 37% 的落差。这个落差就是全部的故事。演示永远能跑通;真正的活儿是让智能体在剩下那 43% 的时候也能干成。下面说说为什么这个数字这么低,以及那些做得更好的团队到底做对了什么。
- agents
- methodology
2026年6月13日
网页能给你的智能体下命令
当你给一个 AI 智能体一个浏览器,让它读网页、点按钮、跑命令时,你就把它的控制权交给了它访问的每一个页面。研究者已经证明,智能体会被藏在网页文字里、藏在 pastebin 链接里、甚至隐形地藏在它看的截图里的指令劫持。这叫间接提示注入,是 OWASP 给 LLM 应用列出的头号风险。智能体分不清哪些是你的指令,哪些是页面的。下面讲清楚为什么它这么难修,以及怎么把系统建得让一个恶意页面没法操控你的智能体。
- security
- agents