全部笔记
你的模型自带价值观——而你继承了它们

2026年6月8日

你的模型自带价值观——而你继承了它们

Anthropic 拒绝让五角大楼用 Claude 做大规模监控或自主武器。国防部长称这是「傲慢」,是想「夺走对军方的否决权」,宣布该公司是供应链风险,并切断了合作。无论你觉得谁对谁错,这场冲突暴露了一件几乎每个开发者都视而不见的事:模型不是中立的工具。它出厂时就带着拒绝、限制和它制造者选定的世界观。选一个模型,你就悄悄接受了它的价值观——它们也成了你产品的价值观。

今年科技圈最奇怪的一场争斗,发生在 Anthropic 和五角大楼之间。简而言之:国防部 想用 Claude 做一些 Anthropic 不允许的事——包括处理美国人的商业数据和操作武器系 统——而 Anthropic 说不行。该公司的立场是,Claude 并非为没有人类监督的致命自主武器而造,也不是用来监视美国公民的, 那样使用它是对工具的滥用。国防部长的回应很直接:他指责 Anthropic 想要 夺取「对美国军方作战决策的否决权」, 宣布该公司是「供应链风险」,并下令承包商切断与它的联系。

谁对谁错可以争上一整天。我想说的重点在这场争论的底下,也是几乎每个开发者都忽视 的一点:模型有一个自带的立场,它压倒了它最大的潜在客户想要的东西。 模型不是 中立的工具。如果你在它之上做开发,它的立场现在就是你的了。

不存在没有价值观的模型

我们谈模型时,仿佛它们是计算器——只处理输入的中立机器。它们不是。每个模型出厂时 都带着一套它的制造者刻意选定的拒绝、限制和默认值:它不愿帮忙做什么,它在什么问 题上含糊其辞,它把什么当作有害,当问题模棱两可时它悄悄假设的是什么样的世界观。 这些选择就是价值观,而且因模型而异。一个会拒绝的请求,另一个会乐意回答。一个偏 谨慎,一个偏宽松。没有哪个是「默认中立」的那个,因为那种东西根本不存在——每一条 界线画在哪里,都是有人定的。

Anthropic 和五角大楼的冲突,只是这件事最响亮的版本:一个坚定到让公司丢掉国防合 同、被扣上国家风险帽子的价值观决定。但同样的事,在你可能基于它开发的每个模型内 部都在悄悄运行,每天围绕上千个更小的问题。

当你选一个模型,你就接受了它的拒绝

这就是为什么这件事对你尤其重要,即便你这辈子都不会碰国防合同。当你把产品接到一 个模型上,你就整套继承了它的价值观。它的拒绝变成了 你产品的 拒绝。如果模型不 愿讨论你的用户正当需要的东西,你的产品也不会——而他们会怪你,不会怪那个实验室。 它的盲点和偏见变成你的。它对什么算「合适」的看法,悄悄变成了你应用的政策,无论 你是否真的选过这条政策。

这和我平时主张的角度不一样。我一直说模型是一种商品,你应该让它保持 可替换,以便在价格和能力上灵活切换。没错——但 这种替换在价值观上并不中立。同样价格、同样跑分的两个模型,可能有着明显不同的个 性和限制,在它们之间切换会悄悄改变你产品会做什么、不会做什么。大脑可以互换;每 个大脑附带的立场却并不完全相同。

而且这些价值观甚至不稳定

还有一个转折让事情更奇怪。你所依赖的那些拒绝,可能不会一直待在原地。对于开放权 重的模型,护栏就活在权重里——而今年有一个免费工具证明了,它能在普通笔记本上, 不到十分钟就把 Meta、谷歌等公司开放模型里的安全保护剥除掉。 所以一个模型的「价值观」既真实到能让你丢掉一份合同,又脆弱到能被下游的某个人去 掉。如果你的安全说辞是「模型会拒绝坏东西」,记住:那个拒绝是一个组件,不是自然 法则——它可能在一种部署里存在,在另一种部署里就没了。

那到底该怎么办

你没法让模型变中立,但你可以不再被它的价值观打个措手不及:

  • 上线前先搞清楚你模型的立场。 探一探它拒绝什么,在哪里含糊其辞,对模棱两可 的问题做什么假设。这些行为现在就是你产品的行为;该由你来发现,而不是你的用户。
  • 选的是价值观,不只是跑分。 你选一个模型,就是在选一种立场。有意地让它匹配 你的使用场景——一个宽松的模型和一个谨慎的模型是不同的产品,不只是不同的分数。
  • 别把你自己的政策外包给模型的默认值。 如果某件事对你的用户真的重要,就自己 来执行——在你这一层——而不是指望模型内置的那条线刚好落在你需要的地方。模型的线 会移动;你的线不该移。
  • 把「模型负责安全」当成起点,不是答案。 它的拒绝可能不一致,而在开放权重上 还可以被去掉。你的保证必须活在你控制得了的地方。

归根结底

Anthropic 和五角大楼之争,会被人记成一个关于 AI 和军方的故事。但更安静的那个教 训是给所有在这些模型之上做开发的人的:不存在「从无处看世界」的模型。每一个都带 着它的制造者选定的一套价值观,强到足以拒绝地球上最强大的客户——而当你在它之上做 开发时,你就把那些价值观当成了自己的,通常还浑然不觉。

所以选的时候要想着这一点。你选的不只是最聪明或最便宜的那个大脑。你选的是:谁对 「什么被允许」的判断会被嵌进你的产品。有意地选,在你的用户之前先弄清楚它信什么, 并把真正重要的那些界线留在你这堵墙的这一侧——因为模型的价值观是真实的,它们默认 并不属于你,而且它们从来就不是中立的。

评论

暂无评论

登录以参与讨论。

做第一个分享想法的人。