笔记
关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。
2026年6月5日
那个“促成交易”的 agent —— 演示藏起来的那部分
Meta 刚刚发布了一个不只会聊天的 agent —— 它会预约、筛选潜在客户、促成交易、收取付款,全天候运转,支持任何语言,接入 Shopify 和 Zendesk。已经有一百万家企业用上了它。演示像变魔术。可它藏起来的是:一个自主的东西在你的业务上行动,以机器的速度,处理来自陌生人的消息 —— 而法律刚刚堵死了“是 AI 干的”这条逃生通道。这是诚实的版本。
- security
- business
- agents
2026年6月5日
AI 开始在后台给你画像了
直到本周,ChatGPT 都只记得你明确让它记住的东西。从 6 月 4 日起,它会“做梦”——一个后台进程读遍你过去所有的对话,悄悄为你建立一套模型,并自行让它保持更新。这是一次真正有用的升级,也是聊天机器人变成画像工具的那一刻。欧盟的数据监管机构今天正是这么说的。本文用大白话讲清楚到底变了什么——以及为什么这是锚定(grounding)问题,只不过这次对准的是你。
- ai-native
- security
2026年6月5日
四周内四款旗舰模型——“哪个模型赢”是一种设计坏味道
这个月一波旗舰模型几乎同时发布——Gemini 3.5 Pro、新版 Claude、Grok 5,而 Opus 4.8 已经上线。所有人都在刷新排行榜。如果这波发布让你焦虑——我们用的是不是最好的那个,要不要换——这份焦虑透露的是你架构的问题,而不是模型的问题。这里是我诚实的看法,以及“保持可替换”到底需要什么。
- ai-native
- architecture
2026年6月5日
“我们先把哪一块智能体化(agentize)?”是个错误的第一个问题
整个市场已经从“agent 是真的吗?”转向了“我公司的哪一块先被智能体化?”——IT 支持、销售、对账。这听起来像是聪明的战略问题。其实它是错的。问该把 agent 指向哪里,跳过了真正决定一切能否成立的两个问题:agent 站在什么之上,以及它出错时谁来负责。下面是真正重要的顺序。
- methodology
- business
- agents
2026年6月4日
token 付费墙不是 SaaS
创业者们正用 SaaS 的本能给 AI 产品定价——固定月费、按席位——然后悄悄地流血,因为让 SaaS 变得神奇的那个东西已经没了。趋近于零的边际成本死了:每个用户都在烧 token,永远地烧,成本随使用量上升。GitHub Copilot 在统一 $10 定价下,每个重度用户每月最多亏 $80。AI 产品不是高毛利率的软件;它更接近一个有着实打实销货成本的公用事业。就该这么定价。
- business
- ai-native
2026年6月4日
基准测试拿了 87%,却依然无法演进你的代码库
标题写着 AI「解决了 87% 的 SWE-bench」,所有人都理解成「AI 现在能做软件工程了」。这里有两个问题。小问题:约三分之一的通过要么泄露了答案,要么测试太弱。致命问题:基准测试衡量的是一次孤立的 bug 修复,而不是真正的工作——在数周内演进一个活的代码库。一旦真正去衡量这件事,同样的模型会从约 73% 跌到约 25%。基准测试是 demo,你的代码库才是生产环境。
- eval
- agents
- methodology