笔记
关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。
2026年6月13日
你的智能体管道,门户大开
针对远程 MCP 服务器(让 AI 智能体接触你的工具和数据的连接器)的首次大规模扫描发现,约 40% 的服务器完全不做任何认证就把工具暴露了出去。Censys 数到了 12,520 个可从公网访问的 MCP 服务,大部分都没有认证。另一轮对 40,000 个服务器仓库的排查产出了 67 个新的 CVE。智能体浪潮把一整层新管道推上了生产环境,速度远快于有人去给它上锁,而眼下,其中很多都是敞开的。下面用大白话讲清楚风险,以及今天该检查什么。
- security
- agents
2026年6月12日
把报错丢给编码 agent,然后让开
一个编码 agent 是好用还是让人抓狂,最大的区别通常不在模型,而在于你有没有把回路闭合。写完代码就停下的 agent 是在瞎猜;而一个会真的去跑代码、读真实报错、然后反复重试直到测试通过的 agent,完全是另一个量级——几次迭代之内修复率就冲过 90%。agent 只能修它看得见的东西,所以你能做的最高杠杆的事,就是给它一双眼睛。下面讲清楚具体怎么做。
- methodology
- agents
2026年6月11日
会记忆的智能体
2026 年智能体最大的突破不是更聪明的模型,而是记忆。谷歌的 ReasoningBank 让智能体从自己的成败中学习,把推理过程存下来,并随着时间推移变得越来越强。这是一次跃迁:从每天早上重置的工具,变成一个会复利成长的同事。但记忆有第二面刃:它把每一个错误都变成长期错误。一个错误的事实、一条被投毒的指令,或者一个悄悄过期的认知,如今会跨会话存活下来,日后反噬你。记忆不是一个开关,而是一个你必须治理的语料库。
- ai-native
- agents
2026年6月10日
为什么你的智能体提交的 pull request 被拒了
研究者分析了 33000 个由 AI 编程智能体写的 pull request,大约 29% 始终没能合并。有意思的是原因:多数不是因为代码写错了,而是因为这个 PR 是个糟糕的协作产物——太大、改动太多文件、把不相关的改动捆在一起、CI 不过、自己又解释不清楚。让代码被接受,原来是一项和写代码完全不同的技能,而这恰恰是智能体默认不具备的技能。这对我们怎么用它们意味着什么,下面就讲。
- methodology
- agents
2026年6月9日
你即将要管理一支智能体队伍
这个月上线了一个平台,让公司可以招聘、入职、管理,甚至给 AI 智能体发工资——覆盖所有主流模型,统一一本护照、一条审计轨迹。它的口号是「你的下一位员工不是人类」。撕掉营销外衣,底下藏着一个真实的转变:工作正从使用一个 AI 工具,变成管理一支 AI 团队。这跟写提示词是完全不同的技能,大多数人还没准备好,而你选用的心智模型,决定了这件事能不能成。
- agents
- methodology
2026年6月9日
智能体更聪明了,但并没有更可靠。
一项新研究让 14 个模型跑了一遍可靠性测试,发现了基准跑分大战掩盖的东西:两年里能力突飞猛进,可靠性却只涨了一点点。更聪明不等于更稳。而背后的数学很残酷——哪怕单步可靠性高达 95%,连着跑 20 次,整个任务做对的概率也只有三分之一左右。我们一直在按智能水平挑选智能体,可真正决定它们能不能用的,完全是另一回事,一件我们几乎都不去衡量的事。
- eval
- agents