扫码下载 APP
qrCode
更多下载方式
今天不再提醒

Transformer 创造者警告:AI 被困原始架构,黄仁勋促七作者破局

2017 年,论文《Attention is All You Need》横空出世,首次引入基于自注意力机制的 Transformer 模型,摆脱传统 RNN 和 CNN 束缚,透过平行处理有效克服长距离依赖难题。2024 年 GTC 大会,Nvidia 执行长黄仁勋邀请 Transformer 七位作者集体亮相。

Transformer 起源于机器翻译的效率困境

Trasnformer七作者集体亮相

(来源:NVIDIA)

黄仁勋询问当初遇到了什么问题,是什么启发团队创造 Transformer。Illia Polosukhin 回应:「如果你想要发布能够真正读取搜寻结果的模型,例如处理成堆的文档,你需要一些能够迅速处理这些资讯的模型。当时的递归神经网路(RNN)并不能满足这样的需求。」

Jakob Uszkoreit 补充:「我们产生训练资料的速度远远超过了我们训练最先进架构的能力。实际上我们使用的是更简单的架构,例如以 n-gram 作为输入特征的前馈网路。这些架构至少在 Google 规模的大量训练资料中,由于训练速度更快,通常都能超越那些更复杂、更先进的模型。」

Noam Shazeer 提供了关键洞察:「看起来这是一个亟待解决的问题。我们在 2015 年左右就已经开始注意到这些 Scaling law,你可以看到随着模型规模的增大,它的智慧程度也随之提高。而一个巨大的挫败感在于,RNN 处理起来实在是太麻烦了。然后我偶然听到这些家伙在讨论,嘿,让我们用卷积或注意力机制来取代它。我心想,太好了,我们就这么做。我喜欢把 Transformer 比喻为是从蒸汽机到内燃机的飞跃。我们本来可以用蒸汽机完成工业革命,但那将会非常痛苦,而内燃机让一切都变得更好。」

Transformer 解决的三大核心问题

并行处理:摆脱 RNN 的顺序处理限制,实现真正的平行计算

长距离依赖:通过自注意力机制有效捕捉远距离词汇间的关系

训练效率:大幅提升模型训练速度,使大规模预训练成为可能

这些技术突破使 Transformer 成为现代 AI 的基石。ChatGPT、BERT、GPT-4 等大型语言模型都基于 Transformer 架构。然而,七年后,创造者们认为是时候突破了。

被困在原始模型的效率困境

Aidan Gomez 坦言:「我认为这个世界需要比 Transformer 更好的东西,我想我们在座的所有人都希望它能被某种东西所取代,将我们带到一个新的性能高原。」Llion Jones 补充:「我们被困在原始模型上,尽管从技术上讲,它可能不是我们现在拥有的最强大的东西。但是每个人都知道自己想要什么样的个人工具,你们想做更好的上下文窗口,你们想要更快产生 token 的生成能力。他们现在使用了太多的计算资源。我认为大家做了很多浪费的计算。」

Jakob Uszkoreit 指出核心问题:「但我觉得这主要是关于如何分配资源,而不是总共消耗了多少资源。例如我们不希望在一个容易的问题上花太多钱,或是在一个太难的问题上花太少而最终得不到解决方案。」

Illia Polosukhin 提供了生动的例子:「这个例子就像 2+2,如果你正确地将他输入到这个模型中,它就会使用一兆个参数。所以我认为自适应计算是接下来必须出现的事情之一,我们知道在特定问题上应该花费多少计算资源。」这个批评揭示了当前 AI 模型的根本缺陷:缺乏自适应性,对简单和复杂问题投入相同的计算资源,造成巨大浪费。

Noam Shazeer 从经济角度分析:「我认为目前的模型太过经济实惠,规模也还太小。每次操作的计算成本大约是 10 到 18 美元。如果你观察一个拥有五千亿参数的模型,并且每个 token 进行一万亿次计算,大概是一美元百万 token,这比外出购买一本平装书并阅读的成本要便宜 100 倍。」这个观点反常识但深刻:AI 目前太便宜了,导致人们滥用而非珍惜计算资源。

未来方向:自适应计算与推理能力

Lukasz Kaiser 揭示了一个重要事实:「我们在最初的目标上并没有成功,我们开始 Transformer 的初衷是想要模拟 Token 的演化过程。它不仅仅是线性的生成过程,而是文字或程式码的逐步演化。」这个坦承显示 Transformer 虽然成功,但并未完全实现创造者的愿景。

Jakob Uszkoreit 指出下一步方向:「下一步是推理。我们都体认到了推理的重要性,但许多工作目前还是由工程师手工完成的。我们希望模型能够产生我们想要的内容,无论是影片、文字或 3D 讯息,它们都应该被整合在一起。」这暗示未来的 AI 架构需要更强的推理能力和多模态整合。

Aidan Gomez 补充:「我们能否实现多任务、多线的并行。如果你真的想建立这样一个模型,帮助我们设计这样一个模型,这是一个非常好的方式。」Lukasz Kaiser 认为:「推理实际上是来自于数据,我们需要让数据更充实。」这些讨论指向了 Transformer 之后 AI 架构的几个关键方向:自适应计算、增强推理、多模态融合和更高效的数据利用。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)