笔记
关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。
2026年6月10日
你的 AI 供应商总有一天会出问题
这周来了两条提醒。Anthropic 将在 6 月 15 日把 Claude Sonnet 4 和 Opus 4 从 API 下线——如果你把版本钉死在这两个上,那天起你的调用就直接开始返回错误,没有任何自动切换。而今天早上,Gemini 挂了。两件事方向相反,教训却一样:撑起你产品的那个模型,是一个第三方服务,它会按照你无法掌控的时间表,去改变、消失或者崩溃。解决办法不是什么战略,而是大多数 AI 产品都跳过的、枯燥的韧性工程。
- architecture
- methodology
2026年6月9日
被颠覆,还是直接出局——你卖的东西,AI 现在免费送了吗?
曾经身价过十亿美元的创业公司里,已经有 220 多家如今市值不到巅峰的一半,一位前 DoorDash 高管说得很直白:工作流类 SaaS 会在十年内「被颠覆,或者死掉」。与此同时,新冒出来的那批「AI wrapper」创业公司,预计约 80% 会失败。两类截然相反的公司,正因为同一个原因走向死亡——它们卖的,正是 AI 现在免费提供的东西。这场生存测试只有一个老实的问题,而无论你在做什么,都值得拿来问问自己。
- business
- careers
2026年6月9日
Anthropic 用 AI 写了 80% 的代码。但你不是 Anthropic。
今年五月,Anthropic 合并进生产环境的代码里,超过 80% 是 Claude 写的。这个数字马上会出现在每一场「程序员要被淘汰了」的争论里,出现在每一次「为什么我们跟不上」的会议里。所以请认真读它,因为它说明的恰恰和大多数人以为的相反。这是一家手握最强模型的公司,把这个模型用在自己身上,再由业内最顶尖的一批工程师把关。百分比不是重点。让 80% 能安全上线的那个东西,才是。
- methodology
- careers
2026年6月9日
你即将要管理一支智能体队伍
这个月上线了一个平台,让公司可以招聘、入职、管理,甚至给 AI 智能体发工资——覆盖所有主流模型,统一一本护照、一条审计轨迹。它的口号是「你的下一位员工不是人类」。撕掉营销外衣,底下藏着一个真实的转变:工作正从使用一个 AI 工具,变成管理一支 AI 团队。这跟写提示词是完全不同的技能,大多数人还没准备好,而你选用的心智模型,决定了这件事能不能成。
- agents
- methodology
2026年6月9日
智能体更聪明了,但并没有更可靠。
一项新研究让 14 个模型跑了一遍可靠性测试,发现了基准跑分大战掩盖的东西:两年里能力突飞猛进,可靠性却只涨了一点点。更聪明不等于更稳。而背后的数学很残酷——哪怕单步可靠性高达 95%,连着跑 20 次,整个任务做对的概率也只有三分之一左右。我们一直在按智能水平挑选智能体,可真正决定它们能不能用的,完全是另一回事,一件我们几乎都不去衡量的事。
- eval
- agents
2026年6月9日
你的智能体能花钱的那一天
MetaMask 刚给 AI 智能体配了个钱包——让机器人替你在 DeFi 里交易,速度比你点鼠标快得多。这是一个真正的里程碑,也该让你有点紧张,因为智能体身上每一处不靠谱的地方,在它握住私钥的那一刻就不再是空谈了。答错了你能改,把钱不可逆地转给陌生人你改不了。有意思的不是智能体现在能花钱了,而是那个让这件事还能扛得住的设计思路。
- security
- agents