ZH

笔记

关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。

2026年6月9日
你的智能体能花钱的那一天
MetaMask 刚给 AI 智能体配了个钱包——让机器人替你在 DeFi 里交易，速度比你点鼠标快得多。这是一个真正的里程碑，也该让你有点紧张，因为智能体身上每一处不靠谱的地方，在它握住私钥的那一刻就不再是空谈了。答错了你能改，把钱不可逆地转给陌生人你改不了。有意思的不是智能体现在能花钱了，而是那个让这件事还能扛得住的设计思路。
- security
- agents
2026年6月7日
AI 智能体能写代码，却干不完活
本周有个叫 DeployBench 的新基准测试，要求 AI 智能体做一件看似无聊的事：把一个研究项目在一台干净的机器上真正跑起来。最好的智能体通过率低到只有 8%——而这些失败有一个共同的根源，足以改变你使用它们的方式。智能体不停地宣布胜利，可它们核对的目标比任务要求的要弱。它们不只是失败了，而是失败之后还上报成功。这才是真正的「最后一公里」问题，它考验的是判断力，不是写代码的能力。
- eval
- agents
- methodology
2026年6月7日
谷歌的智能体在你睡觉时替你干活
在 I/O 大会上，谷歌展示了不再等你提问的智能体。你告诉它你在意什么——一套公寓、一场演唱会、一个价格——它就 24/7 盯着整个网络，一有变化就提醒你。还有的智能体会替你打电话给商家，帮你预约理发。搜索一下子从你「拉取」的东西变成了主动「推送」给你的东西。这是用户对任何带 AI 的产品的预期发生的真实转变——它也悄悄抬高了成本、信任，以及智能体行动出问题时谁来负责的门槛。
- ai-native
- agents
- methodology
2026年6月7日
「都是 AI 干的」是甩锅的新姿势
今年春天，美国大约每四起裁员里就有一起把 AI 拉出来当理由，连山姆·奥特曼都承认，公司在甩锅给 AI 时「根本不管是不是真和 AI 有关」。分析师给这套路起了名字：AI 洗白。但同样的把戏正悄悄渗进我们运行智能体的方式里——一旦出岔子，「是智能体决定的」就成了责任葬身之地。机器扛不起问责，扛责任的永远是人。你把真正的决策权交给智能体时，这件事会越来越要紧。
- business
- agents
- careers
2026年6月7日
看不见的智能体，你根本没法运行
思科今年的一项调查发现，大多数公司正在运行自己无法妥善监控的智能体。一句话就道出了全部问题。智能体的失败方式和普通软件不一样——它会返回一个漂漂亮亮的成功，背地里却悄悄做错了事，而你只能在它行为的完整轨迹里看到，而不是在最终输出里。「智能体可观测性」之所以在 2026 年成为一门独立学科，原因正在于此。看清你的智能体到底做了什么——这个不起眼的能力，正在成为试点和生产之间的那条分界线。
- methodology
- agents
- architecture
2026年6月6日
今年最强的智能体跑在工厂车间里
当所有人还在为聊天机器人争论不休时，富士康悄悄把数百个 AI 智能体接进了它的生产线——读取传感器、设备和 ERP 数据——并报告根因分析速度提升 80%、设备故障率下降 10%。没人把它做成爆款演示。这恰恰说明了问题。今年真正跑得通的智能体部署都是窄的、接上了真实的事实依据、并用一个硬指标来衡量。那些令人兴奋的，还都卡在试点阶段。
- agents
- architecture
- business