笔记
关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。
2026年6月19日
智能体盯上了后台
Ramp 刚以 440 亿美元估值融资 7.5 亿美元——而七个月前估值还是 320 亿美元——押注 AI 智能体会自动化企业财务:报销单、发票、记账,甚至发起付款。炫酷的 AI 演示抢尽眼球,但真正落地的 ROI 是不起眼的后台工作。跟着无聊的钱走,并留意是什么让它变得安全。
- business
- agents
2026年6月19日
瓶颈搬到了电网
OpenAI 与 NVIDIA 敲定了 10 吉瓦、又与 AMD 敲定了 6 吉瓦;一座 Stargate 数据中心刚在密歇根获批 1.4 吉瓦,无视当地居民的强烈反对。AI 的约束早就不再是模型了。它是电力、土地,以及围绕二者的政治。这重新定义了效率值多少钱,而这正是支配着远比数据中心小得多的系统的同一条规律。
- architecture
- ai-native
2026年6月19日
写代码的代码
Anthropic 现在说,合入它自己系统的代码中有超过 80% 是 Claude 写的——而 2025 年之前这个数字只是个位数。本月它还发布了一份关于递归自我改进(recursive self-improvement)的正式报告:AI 帮忙打造下一代 AI。剥掉那层科幻外衣,对我们其余人来说,剩下的是一个很实在的信息:瓶颈正在往哪儿移,以及这要求怎样的纪律。
- agents
- methodology
2026年6月19日
现在给模型做红队的是政府
美国 AI 标准机构与 Google DeepMind、Microsoft 和 xAI 签署协议,在前沿模型公开发布前对其进行评估——而且已经做了 40 多次评估,其中一些模型公众从未见过。英国签了平行协议。剥开政治,留下的是一个清晰的信号:要了解一个模型靠的是评估,而不是「感觉」。把这个模式拿走,用到你自己身上。
- security
- methodology
2026年6月19日
你的模型只有六周保质期
本月在短短两周的窗口里,行业就发布了 Claude Mythos 5、GPT-5.6、Gemini 3.2,以及一整面墙的中国前沿模型——Qwen 3.7、DeepSeek V4.1、GLM-6 等等。新的前沿模型如今大约每六周就按节拍器般落地。如果你产品的优势是「我们用最好的模型」,那这个优势比一个季度还快过期。这篇讲讲如何为移动的靶子去搭建。
- ai-native
- architecture
2026年6月19日
AI 提速附带一张安全账单
Gartner 称 90% 的工程负责人反馈 AI 编码工具带来了收益——净生产力提升 19%。同一份研究还说,未经审查的 AI 代码缺陷密度高出 23%,且 14.3% 的 AI 生成片段携带安全漏洞,而人写代码这一比例为 9.1%。几乎没人把这两个数字放进同一句话里。你应该这么做,因为它们是同一个故事。
- security
- methodology