研究發現頭部模型優化器 Muon 在訓練早期讓 MLP 超過四分之一神經元永久死亡，因其正交化保留弱信號導致“強者恆強”。Aurora 將更新均勻性與正交性並行約束，通過交替迭代同時實現兩者，顯著提升學習效率與穩定性。未調參的 Aurora 可直接取代 Muon；1.1B 模型僅用約 100B token，就在多項語言理解基準上逼平用36T token 訓練的 Qwen3-1.7B，且優勢隨 MLP 寬度增大。程式碼與1.1B 預訓練模型已開源。

MarsBit News

2026-05-10 05:11:34

摘要生成中

據動察 Beating 監測，Tilde Research 發現，被 DeepSeek V4、Kimi K2.5、GLM-5 等頭部模型採用的優化器 Muon 有一個隱藏缺陷：它會在訓練早期讓 MLP 層超過四分之一的神經元永久死亡。團隊據此設計了替代優化器 Aurora 並開源。一個 1.1B 模型僅用約 100B token，就在 HellaSwag、Winogrande 等語言理解基準上逼平了用 36T token 訓練的 Qwen3-1.7B。問題出在 Muon 處理 MLP 權重矩陣時的一個數學特性上。訓練初期，一部分神經元碰巧收到了較弱的梯度信號。AdamW 等傳統優化器會逐參數歸一化，自然拉平這種差異；但 Muon 的正交化步驟會把弱信號原封不動地傳下去。弱的神經元持續得到弱更新，越來越沉默，形成「強者恆強」的死循環。到訓練第 500 步，已有超過四分之一的神經元實質性死亡，白白浪費了參數容量。此前的改進版 NorMuon 通過強制拉平每行更新幅度來緩解，但代價是破壞了更新矩陣的正交性（正交化讓每步更新盡可能高效，是 Muon 的核心優勢），損失了優化精度。Aurora 把「更新均勻」和「正交性」設為聯合約束，用交替迭代同時滿足兩者：既讓每個神經元都得到公平的學習機會，又不犧牲更新精度。未調參的 Aurora 僅比 Muon 多 6% 計算開銷，可直接替換。在 modded-nanoGPT 優化跑分中，Aurora 以 3175 步刷新了當前最優紀錄。Aurora 的優勢還會隨 MLP 寬度增大而放大，擴展係數越高，改善越明顯。代碼和 1.1B 預訓練模型均已開源。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

熱門話題
查看更多
#
Gate廣場五月交易分享
105.64萬熱度
#
BTC重返8萬
5945.47萬熱度
#
日本國債上鏈24小時交易
191.06萬熱度
#
韓國加密徵稅倒計時
255.48萬熱度
#
Polymarket每日熱點
87.19萬熱度

Muon悄悄「餓死」25%的神經元：Aurora修復後數據效率翻百倍

熱門話題

Gate廣場五月交易分享

BTC重返8萬

日本國債上鏈24小時交易

韓國加密徵稅倒計時

Polymarket每日熱點

置頂