剑桥研究:2026 年人类资料将被 LLM 学习殆尽,AI 恐因「哈布斯堡现象」崩坏

在生成式 AI 时代,OpenAI、Google、Anthropic 等巨头的模型几乎吃尽全网公开资料。但根据牛津大学与多所机构的研究显示,到 2026 至 2028 年,人类能提供给 AI 的高品质公开资料即将耗尽。当网路被 AI 生成内容淹没,新模型势必得用 AI 产生的资料训练自己。这个自我参照的过程,正如同AI 的近亲通婚。

2026 年人类产生的资料,将被 AI 学习殆尽

牛津大学、剑桥大学与多所研究机构于 2024 年 4 月发表的论文 〈The Curse of Recursion: Training on Generated Data Makes Models Forget〉揭露这个现象。

他们发现:当生成式模型反复使用自己产生的资料进行训练时,即使在理想条件下,模型也会逐渐遗忘现实,最终陷入退化。研究团队以语言模型、变分自动编码器 (VAE) 与高斯混合模型 (GMM) 等多种架构实验后指出,每一次再训练都像影印机重印影本:细节逐渐消失,罕见事件最先被遗忘。过几代后,模型只剩下平均值与主流样貌,最终变得平庸、单一、甚至错误。

此过程就像一场由模型自己发动的资料中毒 (self-poisoning)。最终的结果,是模型不再理解语言与现实,输出变成重复的胡言乱语。

史丹佛论文:真实资料持续参与,AI 就不会崩坏

然而,2024 年 4 月史丹佛大学与 Constellation 团队发表的论文 〈Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data〉,带来了更乐观的答案。他们重现了牛津团队的实验,但提出新的训练策略:让资料累积而非替换。也就是说,新一代 AI 不丢弃旧的人类资料,而是持续叠加、融合人类与 AI 生成的内容。

结果显示若每次训练都以新合成资料取代旧资料,模型表现会线性恶化。但若保留原始资料并持续累积,模型误差会逐渐趋于稳定,甚至停止恶化。他们在语言模型 (GPT-2、Llama 2)、影像生成 (VAE)、以及分子生成 (Diffusion model) 上反复验证,皆得到一致结论:只要真实资料仍持续参与,AI 就不会崩坏。

研究者在理论上也证明:当资料累积时,模型误差的上限是有限的,不会无限膨胀。这意味着 AI 的「近亲通婚」不是命中注定,只要我们不切断与人类真实资料的连结。

AI 也有哈布斯堡现象,自我参照回圈如同近亲通婚

曾任 Google 软体工程师的 iKala 创办人程世嘉,用人类历史上知名的哈布斯堡家族来形容这一现象。欧洲历史上知名的哈布斯堡王朝,为了维护血统纯正,用近亲联姻的方式将财富、权力锁在家族内部。结果就是出现知名的「哈布斯堡下巴」,但这只是遗传问题的冰山一角。各种遗传疾病、癫痫、智力缺陷甚至高夭折率都是哈布斯堡家族的诅咒,末代国王卡洛斯二世因此身患多种疾病,终身无后。

程世嘉用更具体的案例来解释,原本是一幅充满了细节、甚至有小瑕疵的风景画。画家风格、细节、笔触、瑕疵等其实就代表基因多样性。第一次影印时,AI 生成影本 (合成数据)。这时影本 99.9% 接近原版。但是,AI 是一个模型,它会从中取平均值,平滑处理瑕疵 (代表罕见知识),并稍微强化最常见的特征 (主流观点)。下一代从中学习,又取平均值,这就是自我参照回圈。

这篇文章 剑桥研究:2026 年人类资料将被 LLM 学习殆尽,AI 恐因「哈布斯堡现象」崩坏 最早出现于 链新闻 ABMedia。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)