10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
Sakana AI 聯合英偉達:讓GPU跳過大模型八成無效計算,H100推理提速30%
據動察 Beating 監測,Sakana AI 聯合英偉達開源了名為 TwELL 的稀疏數據格式及配套加速內核,成功讓 GPU 在運行大模型時,跳過那些「結果接近於零」的無效計算。這套方案在不損失模型準確率的前提下,讓 H100 的推理速度最高提升 30%,訓練最高提速 24%,並大幅節省峰值顯存。
大模型的前饋層(FFN)吃掉了絕大部分的參數和算力。但實際上,每次生成文字時,這裡有超過 80% 的神經元都處於「休眠狀態」(激活值接近零),對最終結果毫無貢獻。如果能跳過這些神經元,就能省下海量算力。
然而,現代 GPU 天生只擅長計算整齊划一的密集矩陣,如果用傳統方法去挑出散落的有用數據,光是來回尋找和讀取數據的開銷,就會把省下來的算力全搭進去。
TwELL 格式正是為了打破這個硬件魔咒。它完全順著 GPU 的並行邏輯設計:不再像傳統方法那樣跨區域拼湊非零數據,而是把數據切成 GPU 最擅長處理的小方塊(tile)。
這樣,GPU 的各個計算核心就能在本地直接打包有用的數據,徹底省去了耗時的全局顯存讀寫,完美融入現代芯片的加速流水線。
在 15 億參數模型的實測中,只需在訓練時加一點輕微的正則化,就能把真正需要計算的神經元比例壓低到不足 2%,且七項下游任務的表現均未下降。
數據還揭示了一個規律:模型參數量越大,休眠的神經元就越多(20 億參數模型的非零比例比 5 億模型還要低 38%)。
這意味著,在未來追求更大規模的大模型時,這套針對底層硬件的優化將釋放出更可觀的性能紅利。