ARCHITECTURE · 2026年6月15日

不是模型的错，是你的数据的错。

大多数 AI 项目都失败了——MIT 发现 95% 的生成式 AI 试点没有带来任何可衡量的利润，RAND 把总体失败率定在 80% 左右。出问题时，本能反应是怪模型：不够聪明、选错了、提示词不好。但数据说的是另一回事。被引用最多的失败原因是数据质量差，而只有大约 12% 的组织拥有干净到足以支撑 AI 的数据。你很可能根本不是模型出了问题，而是一个披着模型问题外衣的数据问题。下面教你怎么分辨。

企业 AI 的失败数字残酷得值得大声说出来。MIT 的研究发现 95% 的生成式 AI 试点对利润没有任何可衡量的影响，而 RAND 把 AI 项目的总体失败率定在 80% 左右。大多数 AI 项目不是悄悄地表现不佳，而是直接失败。

每当这种情况发生，几乎所有人都抓住同一个解释：模型。我们选错了，它不够聪明，提示词不对，该试试新版本了。这种本能让人安心，因为换一个就能修。它通常也是错的。AI 项目失败被引用最多的原因根本不是模型—— 而是数据质量差，约 85% 的失败项目都点了它的名，而且首先只有大约 12% 的组织拥有干净到足以支撑 AI 的数据。让我把这个道理讲清楚，因为这是一个真正有效的修复，和一年时间白白花在换模型上之间的区别。

数据准确且及时吗？ 如果来源错误或陈旧，更聪明的模型只会更快、更有说服力地给你错误答案。
系统真的能够到它们吗？ 被困在 PDF、数据孤岛和 AI 无法查询的系统里的数据，等于不存在。能不能访问是一半的战斗。
它们的含义和你以为的一样吗？ 不一致的定义、重复项和缺失的上下文会悄悄地搞坏 AI—— 输出看起来合理，却在细微处出错。
然后才看模型。 十有八九，你在走到这一步之前就已经找到了问题。

修数据又慢又不起眼。但结果恰恰就活在那里。

底线

前沿模型非凡得很，而这恰恰是它们极少成为你 AI 项目失败原因的理由。薄弱环节几乎总是它们底下那无聊的一层。

在怪模型之前，先查数据——因为 AI 失败最常见的原因是输入，而不是智能。 换模型是那种感觉很高效、但通常并不高效的修复。清理你的数据是那种没人想干、却真正有效的修复。

暂无评论

登录以参与讨论。

做第一个分享想法的人。

不是模型的错，是你的数据的错。

模型是看得见的那部分，所以挨骂的是它

数据很无聊，所以这活儿没人愿意干

在怪模型之前该做什么

底线

评论