Gateアプリをダウンロードするにはスキャンしてください
qrCode
その他のダウンロードオプション
今日はこれ以上表示しない

Transformer 創造者警告:AI が原始的なアーキテクチャに囚われている、黄仁勲が七人の作者に打破を促す

2017年には、自己注釈力メカニズムに基づくTransformerモデルを初めて導入し、従来のRNNとCNNの制約を取り除き、並列処理を通じて長距離依存の問題を効果的に克服した論文「Attention is All You Need」が誕生しました。 GTC 2024 では、Nvidia の CEO である Jensen Huang が 7 人の Transformer の著者を招待し、一斉に出演しました。

トランスフォーマーは機械翻訳の効率的な困難から生まれた

! [翻訳者7人の著者が集合して登場](https://img-cdn.gateio.im/webp-social/moments-87a9b3933a-6d9a39f012-153d09-cd5cc0.webp019283746574839201

(出典:NVIDIA)

黄仁勋は、当初何の問題に直面したのか、チームがTransformerを創造するきっかけとなったのは何かを尋ねました。Illia Polosukhinは次のように応答しました:「検索結果を実際に読み取ることができるモデルを公開したいのであれば、山のような文書を処理するために、これらの情報を迅速に処理できるモデルが必要です。当時の再帰神経ネットワーク(RNN)は、そのようなニーズを満たすことができませんでした。」

Jakob Uszkoreit氏は、「トレーニングデータを生成する速度は、最先端のアーキテクチャをトレーニングする能力をはるかに超えています」と付け加えています。 実際、入力特徴として n-gram を使用したフィードフォワード ネットワークなど、より単純なアーキテクチャを使用しています。 これらのアーキテクチャは、少なくとも大量の Google スケールのトレーニング データでは、トレーニングが高速であるため、より複雑で高度なモデルよりも優れていることがよくあります。

ノーム・シャザーは重要な洞察を提供しました。「これは解決すべき緊急の問題のようです。私たちは2015年頃からこれらのスケーリング法則に注目し始めました。モデルの規模が大きくなるにつれて、その知性の程度も高まることがわかります。しかし、RNNを扱うのは本当に面倒で、大きな挫折感があります。それから偶然、これらの人たちが『ねえ、畳み込みやアテンションメカニズムを使ってそれを置き換えよう』と話しているのを聞きました。私は思いました、素晴らしい、そうしましょう。私はトランスフォーマーを蒸気機関から内燃機関への飛躍に例えるのが好きです。私たちは蒸気機関で産業革命を達成することができましたが、それは非常に苦痛なものになるでしょうし、内燃機関はすべてをより良くしました。」

)# トランスフォーマーが解決する3つの主要な問題

並列処理:RNNの逐次処理の制限を取り除き、真の並列計算を実現します

長距離依存:自己注意メカニズムを通じて、遠距離の語彙間の関係を効果的に捉える

トレーニング効率:モデルのトレーニング速度を大幅に向上させ、大規模な事前トレーニングを可能にします。

これらの技術的ブレークスルーにより、Transformerは現代AIの基盤となりました。ChatGPT、BERT、GPT-4などの大型言語モデルはすべてTransformerアーキテクチャに基づいています。しかし、7年後、クリエイターたちは突破する時が来たと考えています。

原始モデルの効率的ジレンマに囚われている

エイダン・ゴメスは次のように語った。「私はこの世界にはトランスフォーマーよりも優れたものが必要だと思う。私たち全員が何かに置き換えられることを望んでいると思う。それが私たちを新しい性能の高原に導いてくれるだろう。」リオン・ジョーンズは補足した。「私たちは原初のモデルに囚われている。技術的には、今私たちが持っているものが最も強力でないかもしれない。しかし、誰もが自分が欲しい個人的なツールの種類を知っている。皆はより良いコンテキストウィンドウを作りたいと思っており、より速くトークンを生成する能力を求めている。彼らは今、あまりにも多くの計算リソースを使用している。私は皆が多くの無駄な計算をしていると思う。」

ヤコブ・ウシュコレイトは核心的な問題を指摘した。「しかし、私はこれが主にリソースの配分に関するものであり、消費したリソースの総量ではないと思います。たとえば、私たちは簡単な問題にあまりにも多くのお金を使いたくないし、逆に難しすぎる問題にあまりにも少ないお金を使って最終的に解決策を得られないようにしたいです。」

Illia Polosukhin は生き生きとした例を提供しました:「この例は 2+2 のようなもので、正しくこのモデルに入力すれば、一兆のパラメータを使用します。だから、私は適応計算が次に出現すべきものの一つだと思います。特定の問題に対してどれだけ計算リソースを費やすべきかを私たちは知っています。」この批評は、現在の AI モデルの根本的な欠陥を明らかにしています:適応性が欠如しており、単純な問題と複雑な問題に同じ計算リソースを投入しているため、大きな無駄が生じています。

ノアム・シャジアは経済的な観点から分析して言った:「現在のモデルは非常に経済的で、規模もまだ小さいと思います。各操作の計算コストは約10ドルから18ドルです。5000億パラメータを持つモデルを観察し、各トークンが1兆回計算されると、約100万トークンあたり1ドルになります。これは、外に出てペーパーバックを買って読むコストの100倍安いです。」この視点は常識とは逆ですが、深いです:AIは現在あまりにも安価であるため、人々は計算リソースを乱用し、大切にしないのです。

将来の方向性:アダプティブコンピューティングと推論機能

ルカシュ・カイザーは重要な事実を明らかにしました。「私たちは最初の目標に成功しませんでした。私たちがTransformerを始めた理由は、Tokenの進化過程を模倣したいと思ったからです。それは単なる線形生成プロセスではなく、文字やコードの段階的な進化です。」この告白は、Transformerが成功したとはいえ、創造者のビジョンを完全には実現していないことを示しています。

ヤコブ・ウシュコレイトは次のステップについて指摘した。「次のステップは推論です。私たちは推論の重要性を理解していますが、多くの作業は現在もエンジニアによって手作業で行われています。私たちはモデルが私たちの望むコンテンツ、動画、テキスト、または3Dメッセージを生成できることを望んでおり、それらはすべて統合されるべきです。」これは、将来のAIアーキテクチャがより強力な推論能力とマルチモーダル統合を必要とすることを示唆しています。

エイダン・ゴメスは補足しました:「私たちはマルチタスクとマルチスレッドの並行を実現できるのでしょうか。本当にそのようなモデルを構築したいのであれば、私たちがそのようなモデルを設計するのを助けることが非常に良い方法です。」ルカシュ・カイザーは考えています:「推論は実際にはデータから来ており、私たちはデータをより充実させる必要があります。」これらの議論は、トランスフォーマー以降のAIアーキテクチャのいくつかの重要な方向性を指し示しています:適応計算、強化推論、多モーダル融合、そしてより効率的なデータ利用。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン