10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
Muon悄悄「餓死」25%的神經元:Aurora修復後數據效率翻百倍
據動察 Beating 監測,Tilde Research 發現,被 DeepSeek V4、Kimi K2.5、GLM-5 等頭部模型採用的優化器 Muon 有一個隱藏缺陷:它會在訓練早期讓 MLP 層超過四分之一的神經元永久死亡。團隊據此設計了替代優化器 Aurora 並開源。一個 1.1B 模型僅用約 100B token,就在 HellaSwag、Winogrande 等語言理解基準上逼平了用 36T token 訓練的 Qwen3-1.7B。 問題出在 Muon 處理 MLP 權重矩陣時的一個數學特性上。訓練初期,一部分神經元碰巧收到了較弱的梯度信號。AdamW 等傳統優化器會逐參數歸一化,自然拉平這種差異;但 Muon 的正交化步驟會把弱信號原封不動地傳下去。弱的神經元持續得到弱更新,越來越沉默,形成「強者恆強」的死循環。到訓練第 500 步,已有超過四分之一的神經元實質性死亡,白白浪費了參數容量。 此前的改進版 NorMuon 通過強制拉平每行更新幅度來緩解,但代價是破壞了更新矩陣的正交性(正交化讓每步更新盡可能高效,是 Muon 的核心優勢),損失了優化精度。Aurora 把「更新均勻」和「正交性」設為聯合約束,用交替迭代同時滿足兩者:既讓每個神經元都得到公平的學習機會,又不犧牲更新精度。 未調參的 Aurora 僅比 Muon 多 6% 計算開銷,可直接替換。在 modded-nanoGPT 優化跑分中,Aurora 以 3175 步刷新了當前最優紀錄。Aurora 的優勢還會隨 MLP 寬度增大而放大,擴展係數越高,改善越明顯。 代碼和 1.1B 預訓練模型均已開源。