Sakana AI 聯合英偉達:讓GPU跳過大模型八成無效計算,H100推理提速30%

robot
摘要生成中

據動察 Beating 監測,Sakana AI 聯合英偉達開源了名為 TwELL 的稀疏數據格式及配套加速內核,成功讓 GPU 在運行大模型時,跳過那些「結果接近於零」的無效計算。這套方案在不損失模型準確率的前提下,讓 H100 的推理速度最高提升 30%,訓練最高提速 24%,並大幅節省峰值顯存。
大模型的前饋層(FFN)吃掉了絕大部分的參數和算力。但實際上,每次生成文字時,這裡有超過 80% 的神經元都處於「休眠狀態」(激活值接近零),對最終結果毫無貢獻。如果能跳過這些神經元,就能省下海量算力。
然而,現代 GPU 天生只擅長計算整齊划一的密集矩陣,如果用傳統方法去挑出散落的有用數據,光是來回尋找和讀取數據的開銷,就會把省下來的算力全搭進去。
TwELL 格式正是為了打破這個硬件魔咒。它完全順著 GPU 的並行邏輯設計:不再像傳統方法那樣跨區域拼湊非零數據,而是把數據切成 GPU 最擅長處理的小方塊(tile)。
這樣,GPU 的各個計算核心就能在本地直接打包有用的數據,徹底省去了耗時的全局顯存讀寫,完美融入現代芯片的加速流水線。
在 15 億參數模型的實測中,只需在訓練時加一點輕微的正則化,就能把真正需要計算的神經元比例壓低到不足 2%,且七項下游任務的表現均未下降。
數據還揭示了一個規律:模型參數量越大,休眠的神經元就越多(20 億參數模型的非零比例比 5 億模型還要低 38%)。
這意味著,在未來追求更大規模的大模型時,這套針對底層硬件的優化將釋放出更可觀的性能紅利。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆