笔记
关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。
2026年7月1日
「workslop」不是生产力。它是一种税。
AI 本该替我们干那些琐碎杂活。可在很多团队里它干的恰恰相反:它生成看上去像模像样的产出,逼着下游的人去辨认、去破译、去重做。研究者给它起了个名字,叫「workslop」,而数字很难看——53% 的白领说自己收到过,每一次平均要花 ~2 小时收拾,还悄悄毒化同事之间的信任。这不是生产力的提升,而是生产力的转移——账单落到了下游某个人头上。
- business
- methodology
2026年6月19日
写代码的代码
Anthropic 现在说,合入它自己系统的代码中有超过 80% 是 Claude 写的——而 2025 年之前这个数字只是个位数。本月它还发布了一份关于递归自我改进(recursive self-improvement)的正式报告:AI 帮忙打造下一代 AI。剥掉那层科幻外衣,对我们其余人来说,剩下的是一个很实在的信息:瓶颈正在往哪儿移,以及这要求怎样的纪律。
- agents
- methodology
2026年6月19日
现在给模型做红队的是政府
美国 AI 标准机构与 Google DeepMind、Microsoft 和 xAI 签署协议,在前沿模型公开发布前对其进行评估——而且已经做了 40 多次评估,其中一些模型公众从未见过。英国签了平行协议。剥开政治,留下的是一个清晰的信号:要了解一个模型靠的是评估,而不是「感觉」。把这个模式拿走,用到你自己身上。
- security
- methodology
2026年6月19日
AI 提速附带一张安全账单
Gartner 称 90% 的工程负责人反馈 AI 编码工具带来了收益——净生产力提升 19%。同一份研究还说,未经审查的 AI 代码缺陷密度高出 23%,且 14.3% 的 AI 生成片段携带安全漏洞,而人写代码这一比例为 9.1%。几乎没人把这两个数字放进同一句话里。你应该这么做,因为它们是同一个故事。
- security
- methodology
2026年6月15日
不是模型的错,是你的数据的错。
大多数 AI 项目都失败了——MIT 发现 95% 的生成式 AI 试点没有带来任何可衡量的利润,RAND 把总体失败率定在 80% 左右。出问题时,本能反应是怪模型:不够聪明、选错了、提示词不好。但数据说的是另一回事。被引用最多的失败原因是数据质量差,而只有大约 12% 的组织拥有干净到足以支撑 AI 的数据。你很可能根本不是模型出了问题,而是一个披着模型问题外衣的数据问题。下面教你怎么分辨。
- architecture
- methodology
2026年6月15日
「已解决」——可他们想要的是真人
公司都爱这个数字:我们的 AI 自己就解决了 76% 的支持工单。客户讲的却是另一个故事。整个 2026 年,宁愿和真人对话的人的比例升到了 85%,对 AI 客服的不满涨到了 59%,而且超过一半的人,哪怕是只靠 AI 解决了的对话,只要通往真人的路看起来被堵死,他们也会直接走人。「被机器人解决」和「客户满意」根本不是一回事。这就是你很可能漏掉的那个指标,以及怎样不再一路优化着把自己推向反弹。
- business
- methodology