Anthropic 的三重时刻:代码泄露、政府对峙与武器化

作者:Ben Thompson

编译:深潮 TechFlow

深潮导读:Anthropic 新模型 Fable 发布仅两月就被美国政府紧急叫停,表面是"安全泄露",实则暴露了 AI 实验室与政府、与软件业的双重战争。这家以"安全"为卖点的公司,正把安全叙事变成商业护城河,而他们真正要抢的是微软们手里的用户数据。

我理解那些嘲讽者的立场,他们总认为 Anthropic 的公开声明——特别是发布模型时的说辞——是为了营销而散播恐慌。两个月前 Anthropic 宣布推出 Mythos Preview,声称这个模型太危险不能公开,特别是它强大的网络安全能力。然后两个月后,公司公开发布了 Fable,即加了各种安全护栏的 Mythos 版本。

就我有限的使用体验而言,Fable 确实是个非常出色的模型。现在除了编程性能之外,已经很难客观评估模型了,但主观感受还是有的,我发现与 Fable 的互动体验极其出色;它让其他模型,包括 GPT 5.5 和 Opus 4.8,都显得又小又蠢。我之前只有两次这种感觉,一次是 GPT-4,一次是 Grok 4,这两个都代表了基础模型规模和复杂度的新一代;我觉得 Fable 源自一个新的预训练,是新一代的第一个。

因此,我完全能接受 Fable/Mythos 在识别和利用安全问题方面确实更强,Anthropic 谨慎推出是有道理的。但公开发布模型的问题在于,护栏可以被越狱,显然发布后不久就发生了这种事。

Anthropic 再次对峙美国政府

接下来发生的事情有些不清楚。Anthropic 在博客文章中写道:

美国政府援引国家安全权力,发布出口管制指令,暂停所有外国公民对 Fable 5 和 Mythos 5 的访问,无论在美国境内还是境外,包括 Anthropic 的外籍员工。这份命令的实际效果是,我们必须突然对所有客户禁用 Fable 5 和 Mythos 5 以确保合规。所有其他 Anthropic 模型的访问不受影响。

我们今天美东时间下午 5:21 收到了政府的指令。信中没有提供国家安全担忧的具体细节。我们理解政府认为已经发现了绕过或"越狱"Fable 5 的方法。我们审查了使用这种特定技术识别少量已知小漏洞的演示。这些漏洞看起来都相对简单,我们发现其他公开可用的模型也能够发现它们而不需要绕过。

Anthropic 接着论证非通用越狱是不可避免且范围有限的,没有证据表明存在通用越狱;而被发现的越狱似乎是亚马逊报告的,这值得注意,因为亚马逊既是 Anthropic 的投资者,也是公司推理服务的主要提供商。在我写这篇文章时,Anthropic 的高管正在华盛顿特区,试图解决他们坚称是误解、而白宫官员暗示是公司领导层对合法国家安全担忧漠不关心的问题。

鉴于有太多事实存在争议,我对当前冲突其实没什么可补充的;但我对冲突正在发生并不感到意外:我已经在《Anthropic 与对齐》一文中解释过,美国政府与 Anthropic 之间的冲突是不可避免的。就此而言,那些认为 Mythos 还不够强大到值得政府采取激烈行动的人错过了重点:如果现在还不够强大,下一个会是,或者再下一个,特别是现在模型在创建后继者方面越来越有用。

然而,这引出了另一个问题——一个似乎证实嘲讽者观点的问题:如果 Mythos 如此危险,为什么一开始要发布 Fable,为什么要和政府对着干做你声称想要的事?事实上,我认为 Anthropic 的行为是完全可以理解的;公司的独特之处在于它如何为这些行为辩护,正是这些辩护既给了嘲讽者燃料,也给了 Anthropic 魔力。

经济必然性

在 AI 的头几年,最多的经济价值流向了算力,原因显而易见:我们没有足够的供应满足需求,这意味着价格飙升;最大的受益者是英伟达、台积电和内存制造商(海力士、三星和美光)。与此同时,Anthropic 和 OpenAI 合计亏损了数百亿美元来构建前沿模型,而这些模型一旦发布,就被开源模型蒸馏和商品化,主要来自中国。

这代表了实验室的悲观情况——它们永远无法覆盖成本,因为它们的差异化是短暂的,而免费替代品变得"足够好"——我认为这是合理的。在一个模型可互换的世界里,模型就是商品,而大部分价值流向其他地方。现在是算力,但随着时间推移,当我们有足够算力时,价值链中最有价值的位置将是一直以来最有价值的地方:拥有用户触点。

因此,前沿实验室有经济必然性要更接近用户,这对我来说一直很清楚。如果你拥有用户触点,那么你就有有意义的锁定,而拥有用户触点的最佳方式是成为他们需要做的一切的画布。这进而意味着前沿实验室正与软件公司走向冲突:是软件拥有用户触点,而前沿实验室的长期利益不是简单地成为软件的商品输入,而是直接取代软件。

与此同时,软件公司正在努力做相反的事。萨提亚·纳德拉在 X 上的一篇文章中阐述了他对公司应如何在模型上构建的愿景:

每家公司都必须建立我所说的人力资本和 token 资本。人力资本包括其员工的知识、判断力、关系、独创性和模式识别,而 token 资本是公司构建和拥有的 AI 能力。重要的是,随着 token 资本的增长,人力资本不会变得不那么有价值。它只会变得更有价值!我相信人类主动性将是 token 资本增长的驱动力。人类将设定雄心勃勃的目标,跨领域连接点,建立关系,并识别最重要的模式。没有人类指导,你的算力就在空转。

这意味着真正的机会不在于选择最好的模型,而在于在模型之上构建学习循环,让人力资本和 token 资本复利增长。你可以外包一项任务,甚至一份工作,但你永远不能外包你的学习。公司的未来是能够让这种学习在人和 AI 之间复利增长。这需要一种新的架构方法,让每家企业都能够构建随时间改进的智能体系统,同时仍保留对其知识产权的控制。公司应该能够更换"通用"模型,而不会失去内置到其学习系统中的"公司老兵"专业知识。这是未来时代你控制权和主权的关键"测试"。

纳德拉以警告开启了这一愿景:

我们都不希望看到的是一个每个行业的每家公司都将价值让给少数几个吞噬一切的模型的世界。如果所有价值都只被少数几个模型获取,政治经济根本不会容忍它。对于一个掏空整个行业的 AI 未来,社会不会给予许可。

想想全球化第一阶段发生了什么,整个工业经济体被外包掏空。表面上 GDP 数字看起来不错,但流离失所是真实的,后果至今仍在感受。让我们不要把这种动态带入 AI 时代,让少数 AI 系统捕获所有经济回报,而整个行业发现他们的知识就在他们眼皮底下被商品化了。

这个类比的问题在于:全球化确实发生了,工业经济体确实被掏空了。这有可能不是警告而是预言;难怪纳德拉在拉响警报,因为微软可能是受害者之一。同样,模型制造商的经济必然性正是要实现这一点。

数据必然性

这些模型——甚至 Mythos——还没有到那一步。它们需要的,除了更多算力,还有更多更好的数据。模型改进越来越多地来自强化学习;其中一些可以合成生成,但对前沿实验室来说最强大的杠杆是真实世界的使用。

我认为这是 OpenAI 和 Anthropic 都提供大幅补贴订阅计划的主要原因。SemiAnalysis 最近估计,200 美元的计划能让你获得价值 8000 美元的 Claude token 和 14000 美元的 Codex token。当然两者都在争夺用户和开发者心智份额,但他们也在争夺实际使用数据的访问权以改进模型。

Anthropic 在 Fable 上大幅加码,宣布他们将保留所有使用的数据 30 天,即使对于之前承诺零数据保留的企业计划也是如此。公司表示不会用这些数据训练,但他们没有设置任何保障措施来保证未来不会这样做(比如将数据存储在第三方)。如果这项政策变化(当 Fable 恢复时)没有导致大量客户流失,我怀疑他们开始使用数据只是时间问题:对他们的最终目标来说,这太有价值了。

还要注意与向上移动到用户触点的良性循环:直接用 Claude 或 Codex 完成的工作流越多,每家公司获得的可以反馈到训练中的数据就越多,这使他们的产品更强大更有用,扩大了他们可以服务的工作流数量,扩大了他们对数据的访问。

纳德拉在文章中强调了这些数据的重要性,但自然认为它应该独立于模型:

公司需要将工作流、领域知识和积累的判断转化为随每次使用而改进的 AI 系统。私有评估应该捕捉模型是否真正在对业务重要的结果上改进(不仅仅是外部基准!). 私有强化学习环境应该让模型在组织内部的真实轨迹上变得更强。其知识库使机构记忆可查询,token 使用更高效。

这个循环成为公司的新知识产权。我把它看作爬山机器。与大多数资产不同,它是复利的。每个改进的工作流都会生成更好的训练信号,这加速了公司独有的隐性知识的积累。早期构建这一点的公司将拥有难以复制的优势,无论任何新的单个模型能力如何。

这个循环成为公司的新 IP。我把它看作一台爬山机器。与大多数资产不同,它能复利增长。每一个改进的工作流程都会产生更好的训练信号,加速公司独有的隐性知识积累。早期建立这一能力的公司将拥有难以复制的优势,无论未来单个模型的能力如何提升。

然而,如果那些服从 Anthropic 数据政策的公司现在就能获得更好的结果呢?或者如果现有公司抵制,为新公司——或者模型制造商自己——留下了在市场上击败它们的机会呢?Anthropic 确实在考验 Nadella 所呼吁的决心。

权力诉求

围绕 Fable/Mythos 的数据保留政策,竟然还不是发布中最具争议的部分。相反,Anthropic 在发布时表示,如果 Fable 被用于 LLM 开发,将悄悄降低其性能;系统卡片中写道:

我们还增加了与前沿 LLM 开发相关的防护措施。正如我们 2026 年 2 月风险报告第 6.1 节所讨论的,我们担心加速整体 AI 发展步伐的风险,尽管我们对这些风险的严重程度仍不确定。特别是,我们的担忧在于——正如我们当时所写——"加速其他 AI 开发者构建与我们的系统具有类似风险的强大 AI 系统——而未必具有相应的防护措施。"

鉴于最近模型具备加速自身开发的能力,我们实施了新的干预措施,限制 Claude 在针对前沿 LLM 开发请求(例如构建预训练管线、分布式训练基础设施或 ML 加速器设计)时的有效性。使用 Claude 开发竞争模型本已违反我们的服务条款,但通过防护措施强制执行这一限制,可以避免加速那些最愿意违反这些条款的行为者。

与我们在网络安全、生物化学和蒸馏尝试方面的干预不同,这些防护措施对用户不可见。Fable 5 不会回退到另一个模型。相反,防护措施将通过提示词修改、引导向量或参数高效微调(PEFT)等方法限制有效性。这些干预不会影响绝大多数编程工作。我们估计它们将影响约 0.03%的流量,集中在不到 0.1%的组织中。当这些干预生效时,我们预计除了限制其开发前沿 LLM 的有效性外,它们对模型行为的影响微乎其微。Claude 仍会对用户请求做出有帮助的回应。我们将在这个模型发布后继续提高检测方法的精确度。

Anthropic 撤回了这一变更——Fable 将把 LLM 相关请求移交给 Opus 4.8,并向用户披露这种移交——但我认为最初的政策非常具有启发性。一方面,我其实不怪 Anthropic 不想帮助竞争对手;另一方面,应该非常清楚的是,Anthropic 认为除了他们之外,任何人都不应该制造前沿 LLM。

这一政策更加引人注目的是,它是在 Anthropic 与战争部发生争执仅两个月后颁布的:后者希望将 Claude 用于任何合法用途,而前者希望对监控和自主武器实施更严格的控制。这种降级措施既代表了 Anthropic 悄悄改变其模型以实现其政策偏好的能力,也代表了其意愿。换句话说,Anthropic 主动验证了一些批评者关于其作为供应链风险的最大担忧。

然而,从那次事件中得出的更广泛结论是,Anthropic 认为他们应该对 Anthropic 的使用方式拥有最终决定权;鉴于他们认为只有他们应该开发前沿 AI,那么他们实际上认为只有他们应该对 AI 总体拥有最终决定权。当你进一步将这一认识与该公司关于 AI 能够进行所有经济活动的声明结合起来,你会意识到 Anthropic 的领导层实际上想要对一切和所有人拥有权力。

安全叙事

当然,Anthropic 永远不会如此直白地表述;相反,故事是关于安全的:

我预计 Anthropic 将越来越多地通过越来越针对不同工作流程定制的端点向终端用户公开其模型能力,即使他们开始限制 API。这种对软件的替代和对访问的限制将以安全的名义进行,即使 Anthropic 在履行其接近终端用户的经济诉求。

Anthropic 对其数据保留政策的重大变更的解释是安全。具体来说,该公司声称保留所有用户数据 30 天对于防止美国政府担心的越狱行为是必要的。我当然可以想象一个未来,安全因素迫使他们也对这些数据进行训练,以更好地防范恶意使用。

整个 Anthropic 的起源故事植根于创始人的信念,即 OpenAI 没有足够认真地对待安全;该公司认为只有他们能够控制 AI,并且因为他们独特地关心安全,所以他们有理由试图控制其他所有人,包括美国政府。

关于这些安全理由,问题在于:我认为它们有效,是因为对 Anthropic 来说,它们不是理由。该公司真的相信他们是唯一相信超级智能的人,因此是唯一充分关注危险的人。这为一个又一个决策、一个又一个政策、一次又一次的对抗开脱,而对外界人士来说,这些看起来像是犬儒主义和天真的奇怪组合。

与 OpenAI 的对比巨大:我认为理解 OpenAI 如何以及为何失去领先地位的一种方式是,在 ChatGPT 发布后的几年里,该公司在内部处于交战状态,曾经的研究实验室突然被赋予成为意外的消费科技公司的重担;在 OpenAI 解决这一冲突的过程中,它向 Anthropic 等公司流失了大量人才。

另一方面,Anthropic 在人才、使命和业务之间拥有完美的一致性。该公司可以向研究人员推销创造机器神的愿景,带着关心危险并且足够聪明代表人类应对危险的那种人的光环;而每一个由此产生的政策变更恰好对业务有利,这是世界上最美妙的巧合。

我既尊重这种一致性,也畏惧它。我尊重它是因为它显然非常有效;最接近的类比可能是苹果,该公司总是以为用户做正确的事为幌子包装每一个自私的行动——而且他们往往确实如此。Anthropic 也是如此。然而,我畏惧的是,让那些确信自己最懂的人去构建一部我可以接受或拒绝的智能手机是一回事;让他们构建有潜力匹敌或超越民族国家权力,或仅仅是大型企业的超级智能则令人担忧得多。那些确信自己知道人类需要什么的聪明人的历史是肮脏的,正是因为他们说服了自己意图是好的,为那些实际上并非如此的行动提供了理由。

TSM0.07%
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论