ZH

笔记

关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。

2026年6月13日
你的智能体管道，门户大开
针对远程 MCP 服务器（让 AI 智能体接触你的工具和数据的连接器）的首次大规模扫描发现，约 40% 的服务器完全不做任何认证就把工具暴露了出去。Censys 数到了 12,520 个可从公网访问的 MCP 服务，大部分都没有认证。另一轮对 40,000 个服务器仓库的排查产出了 67 个新的 CVE。智能体浪潮把一整层新管道推上了生产环境，速度远快于有人去给它上锁，而眼下，其中很多都是敞开的。下面用大白话讲清楚风险，以及今天该检查什么。
- security
- agents
2026年6月12日
把报错丢给编码 agent，然后让开
一个编码 agent 是好用还是让人抓狂，最大的区别通常不在模型，而在于你有没有把回路闭合。写完代码就停下的 agent 是在瞎猜；而一个会真的去跑代码、读真实报错、然后反复重试直到测试通过的 agent，完全是另一个量级——几次迭代之内修复率就冲过 90%。agent 只能修它看得见的东西，所以你能做的最高杠杆的事，就是给它一双眼睛。下面讲清楚具体怎么做。
- methodology
- agents
2026年6月11日
会记忆的智能体
2026 年智能体最大的突破不是更聪明的模型，而是记忆。谷歌的 ReasoningBank 让智能体从自己的成败中学习，把推理过程存下来，并随着时间推移变得越来越强。这是一次跃迁：从每天早上重置的工具，变成一个会复利成长的同事。但记忆有第二面刃：它把每一个错误都变成长期错误。一个错误的事实、一条被投毒的指令，或者一个悄悄过期的认知，如今会跨会话存活下来，日后反噬你。记忆不是一个开关，而是一个你必须治理的语料库。
- ai-native
- agents
2026年6月10日
为什么你的智能体提交的 pull request 被拒了
研究者分析了 33000 个由 AI 编程智能体写的 pull request，大约 29% 始终没能合并。有意思的是原因：多数不是因为代码写错了，而是因为这个 PR 是个糟糕的协作产物——太大、改动太多文件、把不相关的改动捆在一起、CI 不过、自己又解释不清楚。让代码被接受，原来是一项和写代码完全不同的技能，而这恰恰是智能体默认不具备的技能。这对我们怎么用它们意味着什么，下面就讲。
- methodology
- agents
2026年6月9日
你即将要管理一支智能体队伍
这个月上线了一个平台，让公司可以招聘、入职、管理，甚至给 AI 智能体发工资——覆盖所有主流模型，统一一本护照、一条审计轨迹。它的口号是「你的下一位员工不是人类」。撕掉营销外衣，底下藏着一个真实的转变：工作正从使用一个 AI 工具，变成管理一支 AI 团队。这跟写提示词是完全不同的技能，大多数人还没准备好，而你选用的心智模型，决定了这件事能不能成。
- agents
- methodology
2026年6月9日
智能体更聪明了，但并没有更可靠。
一项新研究让 14 个模型跑了一遍可靠性测试，发现了基准跑分大战掩盖的东西：两年里能力突飞猛进，可靠性却只涨了一点点。更聪明不等于更稳。而背后的数学很残酷——哪怕单步可靠性高达 95%，连着跑 20 次，整个任务做对的概率也只有三分之一左右。我们一直在按智能水平挑选智能体，可真正决定它们能不能用的，完全是另一回事，一件我们几乎都不去衡量的事。
- eval
- agents