據動察 Beating 監測，Sakana AI 聯合英偉達開源了名為 TwELL 的稀疏數據格式及配套加速內核，成功讓 GPU 在運行大模型時，跳過那些「結果接近於零」的無效計算。這套方案在不損失模型準確率的前提下，讓 H100 的推理速度最高提升 30%，訓練最高提速 24%，並大幅節省峰值顯存。
大模型的前饋層（FFN）吃掉了絕大部分的參數和算力。但實際上，每次生成文字時，這裡有超過 80% 的神經元都處於「休眠狀態」（激活值接近零），對最終結果毫無貢獻。如果能跳過這些神經元，就能省下海量算力。
然而，現代 GPU 天生只擅長計算整齊划一的密集矩陣，如果用傳統方法去挑出散落的有用數據，光是來回尋找和讀取數據的開銷，就會把省下來的算力全搭進去。
TwELL 格式正是為了打破這個硬件魔咒。它完全順著 GPU 的並行邏輯設計：不再像傳統方法那樣跨區域拼湊非零數據，而是把數據切成 GPU 最擅長處理的小方塊（tile）。
這樣，GPU 的各個計算核心就能在本地直接打包有用的數據，徹底省去了耗時的全局顯存讀寫，完美融入現代芯片的加速流水線。
在 15 億參數模型的實測中，只需在訓練時加一點輕微的正則化，就能把真正需要計算的神經元比例壓低到不足 2%，且七項下游任務的表現均未下降。
數據還揭示了一個規律：模型參數量越大，休眠的神經元就越多（20 億參數模型的非零比例比 5 億模型還要低 38%）。
這意味著，在未來追求更大規模的大模型時，這套針對底層硬件的優化將釋放出更可觀的性能紅利。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

熱門話題
查看更多
#
Gate廣場五月交易分享
105.62萬熱度
#
BTC重返8萬
5945.47萬熱度
#
日本國債上鏈24小時交易
191.06萬熱度
#
韓國加密徵稅倒計時
255.47萬熱度
#
Polymarket每日熱點
87.19萬熱度

Sakana AI 聯合英偉達：讓GPU跳過大模型八成無效計算，H100推理提速30%

熱門話題

Gate廣場五月交易分享

BTC重返8萬

日本國債上鏈24小時交易

韓國加密徵稅倒計時

Polymarket每日熱點

置頂