ZH

笔记

关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。

2026年6月10日
你的 AI 供应商总有一天会出问题
这周来了两条提醒。Anthropic 将在 6 月 15 日把 Claude Sonnet 4 和 Opus 4 从 API 下线——如果你把版本钉死在这两个上，那天起你的调用就直接开始返回错误，没有任何自动切换。而今天早上，Gemini 挂了。两件事方向相反，教训却一样：撑起你产品的那个模型，是一个第三方服务，它会按照你无法掌控的时间表，去改变、消失或者崩溃。解决办法不是什么战略，而是大多数 AI 产品都跳过的、枯燥的韧性工程。
- architecture
- methodology
2026年6月9日
被颠覆，还是直接出局——你卖的东西，AI 现在免费送了吗？
曾经身价过十亿美元的创业公司里，已经有 220 多家如今市值不到巅峰的一半，一位前 DoorDash 高管说得很直白：工作流类 SaaS 会在十年内「被颠覆，或者死掉」。与此同时，新冒出来的那批「AI wrapper」创业公司，预计约 80% 会失败。两类截然相反的公司，正因为同一个原因走向死亡——它们卖的，正是 AI 现在免费提供的东西。这场生存测试只有一个老实的问题，而无论你在做什么，都值得拿来问问自己。
- business
- careers
2026年6月9日
Anthropic 用 AI 写了 80% 的代码。但你不是 Anthropic。
今年五月，Anthropic 合并进生产环境的代码里，超过 80% 是 Claude 写的。这个数字马上会出现在每一场「程序员要被淘汰了」的争论里，出现在每一次「为什么我们跟不上」的会议里。所以请认真读它，因为它说明的恰恰和大多数人以为的相反。这是一家手握最强模型的公司，把这个模型用在自己身上，再由业内最顶尖的一批工程师把关。百分比不是重点。让 80% 能安全上线的那个东西，才是。
- methodology
- careers
2026年6月9日
你即将要管理一支智能体队伍
这个月上线了一个平台，让公司可以招聘、入职、管理，甚至给 AI 智能体发工资——覆盖所有主流模型，统一一本护照、一条审计轨迹。它的口号是「你的下一位员工不是人类」。撕掉营销外衣，底下藏着一个真实的转变：工作正从使用一个 AI 工具，变成管理一支 AI 团队。这跟写提示词是完全不同的技能，大多数人还没准备好，而你选用的心智模型，决定了这件事能不能成。
- agents
- methodology
2026年6月9日
智能体更聪明了，但并没有更可靠。
一项新研究让 14 个模型跑了一遍可靠性测试，发现了基准跑分大战掩盖的东西：两年里能力突飞猛进，可靠性却只涨了一点点。更聪明不等于更稳。而背后的数学很残酷——哪怕单步可靠性高达 95%，连着跑 20 次，整个任务做对的概率也只有三分之一左右。我们一直在按智能水平挑选智能体，可真正决定它们能不能用的，完全是另一回事，一件我们几乎都不去衡量的事。
- eval
- agents
2026年6月9日
你的智能体能花钱的那一天
MetaMask 刚给 AI 智能体配了个钱包——让机器人替你在 DeFi 里交易，速度比你点鼠标快得多。这是一个真正的里程碑，也该让你有点紧张，因为智能体身上每一处不靠谱的地方，在它握住私钥的那一刻就不再是空谈了。答错了你能改，把钱不可逆地转给陌生人你改不了。有意思的不是智能体现在能花钱了，而是那个让这件事还能扛得住的设计思路。
- security
- agents