笔记
关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。
2026年6月13日
上下文窗口最大的那个,赢不了
每次发布新模型,都在炫耀更大的上下文窗口——一百万 token、两百万、把整个代码库一口气塞进去。但一份针对企业部署的分析发现,将近 65% 的智能体失败来自多步骤工作中的上下文漂移或记忆丢失,而不是窗口太小。2026 年真正能交付可靠智能体的团队,不是窗口最大的那些,而是把模型实际看到的东西筛选得最狠的那些。这篇说清楚区别在哪,以及为什么更多往往更糟。
- agents
- methodology
2026年6月13日
你的智能体只有 57% 的时候能用
2026 年 3 月的一份报告分析了 6,259 个跑在真实生产环境里的 AI 智能体,发现整体成功率只有 56.6%——比抛硬币好不了多少。同一批研究还显示,智能体在基准测试上的表现和在真实世界里的表现之间,存在 37% 的落差。这个落差就是全部的故事。演示永远能跑通;真正的活儿是让智能体在剩下那 43% 的时候也能干成。下面说说为什么这个数字这么低,以及那些做得更好的团队到底做对了什么。
- agents
- methodology
2026年6月13日
2026 是 AI 的「拿出真金白银」之年
今年全球 AI 支出预计达到 2.59 万亿美元,同比增长 47%——而一项被广泛引用的 MIT 研究发现,95% 的企业生成式 AI 试点没有带来可衡量的 ROI。这两个数字不可能永远共存。一位 Menlo Ventures 合伙人把 2026 称为「拿出真金白银」之年,企业正用支出上限、仪表盘和 ROI 关卡取代开放式预算。如果你用 AI 做产品,那个靠「我们还在试验」就能免单的时代要结束了。这篇说清这场清算到底改变了什么——以及怎样站到对的一边。
- business
2026年6月13日
网页能给你的智能体下命令
当你给一个 AI 智能体一个浏览器,让它读网页、点按钮、跑命令时,你就把它的控制权交给了它访问的每一个页面。研究者已经证明,智能体会被藏在网页文字里、藏在 pastebin 链接里、甚至隐形地藏在它看的截图里的指令劫持。这叫间接提示注入,是 OWASP 给 LLM 应用列出的头号风险。智能体分不清哪些是你的指令,哪些是页面的。下面讲清楚为什么它这么难修,以及怎么把系统建得让一个恶意页面没法操控你的智能体。
- security
- agents
2026年6月13日
把它写下来给机器看
现在每个正经的编程智能体在动你的仓库之前,都会先读一个纯文本文件:AGENTS.md。截至 2026 年初,它已被 Claude Code、OpenAI 的 Codex CLI、Cursor、Aider、Devin、GitHub Copilot、Gemini CLI、Windsurf 和 Amazon Q 原生读取——这是业界目前最接近通用智能体指令格式的东西。它是当下你在 AI 编程上能花出去回报最高的一小时,可几乎没人去做。这篇讲清楚里面写什么、为什么管用。
- methodology
- ai-native
2026年6月13日
你的智能体管道,门户大开
针对远程 MCP 服务器(让 AI 智能体接触你的工具和数据的连接器)的首次大规模扫描发现,约 40% 的服务器完全不做任何认证就把工具暴露了出去。Censys 数到了 12,520 个可从公网访问的 MCP 服务,大部分都没有认证。另一轮对 40,000 个服务器仓库的排查产出了 67 个新的 CVE。智能体浪潮把一整层新管道推上了生产环境,速度远快于有人去给它上锁,而眼下,其中很多都是敞开的。下面用大白话讲清楚风险,以及今天该检查什么。
- security
- agents