ZH

笔记

关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。

2026年6月19日
现在给模型做红队的是政府
美国 AI 标准机构与 Google DeepMind、Microsoft 和 xAI 签署协议，在前沿模型公开发布前对其进行评估——而且已经做了 40 多次评估，其中一些模型公众从未见过。英国签了平行协议。剥开政治，留下的是一个清晰的信号：要了解一个模型靠的是评估，而不是「感觉」。把这个模式拿走，用到你自己身上。
- security
- methodology
2026年6月19日
AI 提速附带一张安全账单
Gartner 称 90% 的工程负责人反馈 AI 编码工具带来了收益——净生产力提升 19%。同一份研究还说，未经审查的 AI 代码缺陷密度高出 23%，且 14.3% 的 AI 生成片段携带安全漏洞，而人写代码这一比例为 9.1%。几乎没人把这两个数字放进同一句话里。你应该这么做，因为它们是同一个故事。
- security
- methodology
2026年6月15日
不是模型的错，是你的数据的错。
大多数 AI 项目都失败了——MIT 发现 95% 的生成式 AI 试点没有带来任何可衡量的利润，RAND 把总体失败率定在 80% 左右。出问题时，本能反应是怪模型：不够聪明、选错了、提示词不好。但数据说的是另一回事。被引用最多的失败原因是数据质量差，而只有大约 12% 的组织拥有干净到足以支撑 AI 的数据。你很可能根本不是模型出了问题，而是一个披着模型问题外衣的数据问题。下面教你怎么分辨。
- architecture
- methodology
2026年6月15日
「已解决」——可他们想要的是真人
公司都爱这个数字：我们的 AI 自己就解决了 76% 的支持工单。客户讲的却是另一个故事。整个 2026 年，宁愿和真人对话的人的比例升到了 85%，对 AI 客服的不满涨到了 59%，而且超过一半的人，哪怕是只靠 AI 解决了的对话，只要通往真人的路看起来被堵死，他们也会直接走人。「被机器人解决」和「客户满意」根本不是一回事。这就是你很可能漏掉的那个指标，以及怎样不再一路优化着把自己推向反弹。
- business
- methodology
2026年6月15日
花钱越来越多，信心越来越少
企业正把钱大把投入 AI——预算急剧上升，有些甚至同比翻倍。可就在同一口气里，51% 的 CIO 却说，AI 落地的速度已经快到他们管不过来了。这是个奇怪的组合：签支票的人，觉得他们出资的东西正在把自己甩在身后。本能反应是把这读作「慢下来」。可数据说的恰恰相反。跑得最快的并不是那些谨慎的人——而是那些先把护栏建好的人。这就是藏在矛盾里的真正教训。
- business
- methodology
2026年6月15日
我如何把一万名玩家放进同一个世界
大多数网络游戏都在掩盖自己的规模——把玩家拆进 20 人的房间，或者分成几百人的分片。为 Helix Empire 我故意定了一个更难的目标：一万名玩家在同一个共享世界里，跑在一台服务器上，在浏览器里实时呈现。这是它如何被一步步建起来的完整故事——你会撞上的四堵墙，为什么真正的瓶颈是流量而不是 CPU，以及一次压测如何证明我那个漂亮数字其实是个谎言。它很长，很技术，每一个论断都以一次测量收尾。这些经验适用于任何高负载系统。
- architecture
- methodology