Nous ResearchがLighthouse Attentionを発表、長いシーケンスの事前学習を1.4〜1.7倍高速化

AIMPACT メッセージ、5 月 17 日(UTC+8)、Nous ResearchはLighthouse Attention手法を発表し、選択式階層的注意力メカニズムを通じて長いシーケンスの事前学習における注意力計算コストの二次関数的増加の問題を解決します。この手法はQuery、Key、Valueを対称的にプーリングし、選択ロジックを注意力コアの外側に配置して再利用可能なFlashAttentionコアを使用し、二段階のトレーニング戦略を採用しています。実測では、NVIDIA B200上で、コンテキスト長512Kで前方伝播を21倍高速化し、前方+逆伝播を17.3倍高速化、第一段階のスループットは12.6万トークン/秒/GPU(密集SDPAの4.6万と比較)に達し、エンドツーエンドの加速は1.40×から1.69×に達し、同時にトレーニング損失は一致またはより低い状態を維持しています。530MパラメータのLlama-3スタイルモデルで検証した結果、三つのLighthouse実行の最終損失(0.698-0.71)は、ゼロからトレーニングした密集SDPA基準(0.7237)より優れており、22.5〜27時間のトレーニング時間を節約しています。論文arXiv:2605.06554。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め