2026年6月5日
智能体正进入“出错就是官司”的领域
本周 Experian 推出了一套面向信贷的 Agent OS(智能体操作系统)——由智能体来决定信贷、识别欺诈、判定谁有资格。在这些场景里,一次幻觉不再是聊天机器人尴尬的回复;它意味着一笔被拒的贷款、一次错误的医疗授权、一张传票。有一个数字点明了风险:AI 医疗拒赔在申诉时有 80% 以上被推翻——但提出申诉的人不到 1%。这就是为什么受监管领域会让关于智能体的整套论证真正变成法律。
智能体正在进入那些一旦出错、后果绝不只是聊天机器人尴尬回复的场景。 6月2日,Experian 推出了一套面向金融服务的 Agent OS(智能体操作系统) ——由智能体来运行信贷全流程:决定信贷、识别欺诈、 判定谁有资格。这是对我整年所写每一条原则的真正考验, 因为在这里,一个自信的错误答案会有受害者,也会有一张传票。
为什么风险不一样——只看一个数字
在面向消费者的聊天机器人里,一次幻觉只是让人难堪。在高风险领域, 它会变成一种通常无法挽回的伤害。看看医疗的事前授权(prior authorization):当一个 由 AI 驱动的拒赔被申诉时,它会 有 80% 以上被推翻——但真正提出申诉的患者不到 1%。 好好体会这一点。在一个后果严重的领域里,一个自信地犯错的智能体不只是 在犯错;它犯的错大多会成立,因为受害的那个人 很少会去争辩。这就是这些系统一旦开始决定一笔贷款或一次治疗、而不只是 起草一封邮件时,所要承担的分量。
好消息:这正是我整套论证变成法律的地方
受监管的行业没法像初创公司运行聊天机器人那样运行智能体——而且 它们被迫遵守的规则,几乎就是我一直在 宣讲的那套工程实践。炒作在这里撞上的那堵墙,正是用对的砖砌成的。
- 锚定(grounding)和审计追踪是强制的,不是可选的。 金融 AI 必须 保留足以重建一个决策的记录:输入数据、模型 版本、推理步骤、所应用的合规规则,以及任何人工复核。 一个“就这么决定了”、却没有可追溯依据的智能体,根本不可上线。 我说你应该去做的事,监管者会 逼你去做。
- 人必须能够推翻那些后果严重的动作。 受监管的 部署要求在那些要紧的写操作上设置“双人复核(four-eyes)”检查点——一次付款 变更、一次资格判定、一份患者病历。这正是从 审批一切到掌控策略与高影响 决策的转变,由后果牵引、由法律托底。
- 合规覆盖的是整个工作流,而不只是答案。 一个从一个系统 读取、又向另一个系统写入的多步智能体,会触发职责分离 和记录完整性的规则。这正是动作面 那个观点——约束一个智能体能做什么,而不只是它说什么—— 被写成了监管条文。
Experian 的系统把那一层放在最前面——身份、治理、可解释性、 人工监督——在能力之前。每一个认真的受监管 部署都是如此。这种顺序不是官僚主义;它和 问对第一个问题是同一个道理:信任 层先来,否则什么都无法安全上线。
给所有人的重新框定,不只是给银行
下面这部分,哪怕你这辈子都不会碰信贷模型,也值得拿走。监管者 强加给金融和医疗的规则,不过是你本就应该做的 好工程——只是多了一个来执行它的人。如果你的智能体没法解释 它为什么这么做、在要紧的动作上没法被人推翻, 又把一次高风险的写操作当成一段随手丢弃的闲聊,那它就不该出现在银行里。 它也不该出现在你的产品里。唯一的区别是银行有一个 监管者来逼它停下,而你必须做你自己的监管者。
所以把那份纪律借过来。刚刚在信贷领域变成法律的标准,正是 让任何智能体值得信任的同一个标准:锚定在真实的事实来源上、 事后可审计、在要紧的动作上可被推翻、被约束在它 可以做的范围内。你不需要一个监管者才能照这个标准来建。你只需要决定,你的 用户值得和借款人一样的保护。
不性感的真相
今年最先进的智能体部署,不会是最聪明的。它们会 是最可审计的。在错误会造成受害者的领域里,那个无趣的 治理层会排在最前面——而这恰恰是为什么这些智能体能够上线,而 更花哨的那些却卡在试点里。要弄懂“生产级智能体”到底 意味着什么,要去学的地方从来不是 demo。它在那个错误答案就是一场官司的 房间里。就当你已经身处那个房间一样去建,因为刚刚在金融领域变成法律的 那道门槛,正是让智能体在任何地方都值得信任的那道门槛。
评论
暂无评论
登录以参与讨论。
做第一个分享想法的人。