ZH

笔记

关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。

2026年7月1日
「workslop」不是生产力。它是一种税。
AI 本该替我们干那些琐碎杂活。可在很多团队里它干的恰恰相反：它生成看上去像模像样的产出，逼着下游的人去辨认、去破译、去重做。研究者给它起了个名字，叫「workslop」，而数字很难看——53% 的白领说自己收到过，每一次平均要花 ~2 小时收拾，还悄悄毒化同事之间的信任。这不是生产力的提升，而是生产力的转移——账单落到了下游某个人头上。
- business
- methodology
2026年6月19日
写代码的代码
Anthropic 现在说，合入它自己系统的代码中有超过 80% 是 Claude 写的——而 2025 年之前这个数字只是个位数。本月它还发布了一份关于递归自我改进（recursive self-improvement）的正式报告：AI 帮忙打造下一代 AI。剥掉那层科幻外衣，对我们其余人来说，剩下的是一个很实在的信息：瓶颈正在往哪儿移，以及这要求怎样的纪律。
- agents
- methodology
2026年6月19日
现在给模型做红队的是政府
美国 AI 标准机构与 Google DeepMind、Microsoft 和 xAI 签署协议，在前沿模型公开发布前对其进行评估——而且已经做了 40 多次评估，其中一些模型公众从未见过。英国签了平行协议。剥开政治，留下的是一个清晰的信号：要了解一个模型靠的是评估，而不是「感觉」。把这个模式拿走，用到你自己身上。
- security
- methodology
2026年6月19日
AI 提速附带一张安全账单
Gartner 称 90% 的工程负责人反馈 AI 编码工具带来了收益——净生产力提升 19%。同一份研究还说，未经审查的 AI 代码缺陷密度高出 23%，且 14.3% 的 AI 生成片段携带安全漏洞，而人写代码这一比例为 9.1%。几乎没人把这两个数字放进同一句话里。你应该这么做，因为它们是同一个故事。
- security
- methodology
2026年6月15日
不是模型的错，是你的数据的错。
大多数 AI 项目都失败了——MIT 发现 95% 的生成式 AI 试点没有带来任何可衡量的利润，RAND 把总体失败率定在 80% 左右。出问题时，本能反应是怪模型：不够聪明、选错了、提示词不好。但数据说的是另一回事。被引用最多的失败原因是数据质量差，而只有大约 12% 的组织拥有干净到足以支撑 AI 的数据。你很可能根本不是模型出了问题，而是一个披着模型问题外衣的数据问题。下面教你怎么分辨。
- architecture
- methodology
2026年6月15日
「已解决」——可他们想要的是真人
公司都爱这个数字：我们的 AI 自己就解决了 76% 的支持工单。客户讲的却是另一个故事。整个 2026 年，宁愿和真人对话的人的比例升到了 85%，对 AI 客服的不满涨到了 59%，而且超过一半的人，哪怕是只靠 AI 解决了的对话，只要通往真人的路看起来被堵死，他们也会直接走人。「被机器人解决」和「客户满意」根本不是一回事。这就是你很可能漏掉的那个指标，以及怎样不再一路优化着把自己推向反弹。
- business
- methodology