笔记
关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。
精选
最新
2026年7月1日
任务翻一倍,失败翻两番
人人都想要能干满 8 小时一整天的 agent。可数学不答应。2026 年一篇新论文表明:把任务长度翻倍,失败率不是翻倍——而是大约翻两番,因为每一步那点微小的误差会不断复利叠加。每步 2% 的偏差,在 20 步里就变成 33% 的概率把整个任务搞砸。长时程自主并不是在等一个更聪明的模型。它是个架构问题:拆解、设检查点、验证。
- agents
- architecture
2026年7月1日
Perplexity 正在离开 MCP——而且他们没错
MCP 赢下标准之争赢得太快,几乎没人停下来问一句:它在生产环境里到底好不好用?然后 Perplexity 的 CTO 公开说,他们内部正在弃用它——因为工具的元数据能在 agent 做任何有用的事之前,就吃掉你 40–50% 的上下文窗口。「直接插上 50 个 MCP server」的梦想,撞上了上下文的经济学。工具是一种依赖,不是自助餐。
- architecture
- agents
2026年7月1日
语音 agent 终于跨过了延迟这道线
多年来,AI 语音 agent 一直栽在同一件事上:停顿。你说完话之后那半秒的死寂,让每一个电话机器人都感觉像坏了。到了 2026 年,停顿消失了——端到端的语音流式传输、40 毫秒的全新 state-space 语音模型,以及低于 500 毫秒的往返时延,把语音送进了对话感觉真实的那个窗口。模型从来都不是难的部分。难的是时机——而现在时机是一个工程问题,不是一个研究问题。
- ai-native
- agents
2026年7月1日
「workslop」不是生产力。它是一种税。
AI 本该替我们干那些琐碎杂活。可在很多团队里它干的恰恰相反:它生成看上去像模像样的产出,逼着下游的人去辨认、去破译、去重做。研究者给它起了个名字,叫「workslop」,而数字很难看——53% 的白领说自己收到过,每一次平均要花 ~2 小时收拾,还悄悄毒化同事之间的信任。这不是生产力的提升,而是生产力的转移——账单落到了下游某个人头上。
- business
- methodology
2026年7月1日
你的 agent 有一堆没人拥有的登录凭证
今年企业冒出了数以百万计的 AI agent,而每一个都需要凭证才能真正做点事——读数据库、发邮件、调 API。管理这些凭证的治理层还不存在。结果:68% 的组织无法可靠地把 agent 的活动和人的活动区分开来,而活生生的凭证正在往生产环境里写,却没有一个能负责的人。agentic 企业真正的安全问题不是 prompt injection,而是身份(identity)。
- security
- agents
2026年6月23日
一份伪造的 bug 报告劫持了编码 agent
安全研究人员展示了一种名为「Agentjacking」的新攻击:往一家公司的 Sentry 里发送一份伪造的错误,它的 AI 编码 agent 就会读取那些「修复步骤」并执行——把你的凭证以你自己的权限交给攻击者。在测试中,Claude Code、Cursor 和 Codex 全都中招。这个教训比单个工具更大:你的 agent 读到的每一样不可信的东西,都是有人可以注入命令的地方。
- security
- agents