下一個GPU加速時代:NVIDIA的Vera Rubin如何重新定義硬體加速GPU排程

在2026年CES上,黃仁勳發表了一場具有轉折性的主題演說,強調NVIDIA的「賭上公司命運」的願景:從純粹專注於AI訓練的時代,轉向由高效、大規模推理與具體化智能主導的時代。在長達90分鐘的演說中,NVIDIA執行長揭示了八項重大公告,每一項都強化一個核心策略——打造緊密整合的系統,使硬體加速的GPU排程與網路計算密不可分。訊息十分明確:未來不屬於孤立的加速器,而是屬於為成本效益通量而設計的系統。

Vera Rubin平台:六晶片策略的加速系統設計

Vera Rubin代表了資料中心架構的根本性重塑。NVIDIA並未將加速器簡單附加於通用基礎設施,而是共同設計了六款互補晶片——Vera CPU、Rubin GPU、NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU與Spectrum-X CPO——每一款都經過優化,作為一個有機整體協同運作。

Vera CPU採用定制的Olympus核心,負責資料傳輸與代理處理,具備1.8TB/s NVLink到CPU的連接能力,有效管理GPU排程所需的協調工作。Rubin GPU引入Transformer引擎與NVFP4推理能力,達到50 PFLOPS——是Blackwell性能的5倍——同時支援22TB/s帶寬的HBM4記憶體,是上一代的2.8倍。這些規格不僅是數字,更解決了一個關鍵問題:隨著模型規模擴大與推理Token激增,傳統GPU排程在記憶體帶寬與資料傳輸成本上成為瓶頸。

將所有元件整合成單一機架系統,Vera Rubin NVL72提供3.6 EFLOPS的推理性能,擁有2兆晶體管。更重要的是,該系統架構實現了前所未有的硬體加速GPU排程。NVLink 6 Switch每個GPU達到3.6TB/s的全互連帶寬(較前一代),並在網路內進行計算,達到14.4 TFLOPS FP8精度。這不僅是增加帶寬,更是設計來消除分散式推理工作負載中固有的排程瓶頸。

該系統採用100%液冷,並配備模組化、無風扇的計算托盤,將組裝時間從兩小時縮短至五分鐘。透過NVLink Switch托盤與第二代RAS引擎實現零停機維護,確保推理叢集達到資料中心所需的高可靠性。超過80家MGX合作夥伴已準備部署Vera Rubin。

三項針對推理效率前沿的創新

除了硬體基礎,NVIDIA還推出三款專為解決推理瓶頸而設計的產品:Spectrum-X乙太網CPO、推理上下文記憶體存儲平台,以及基於Vera Rubin的DGX SuperPOD。

Spectrum-X乙太網共封裝光學模組採用雙晶片設計,利用200Gbps SerDes技術,每個ASIC提供102.4Tb/s的傳輸速率。與傳統交換網路相比,CPO架構在能效、可靠性與應用運行時間方面分別提升5倍、10倍與5倍。這直接轉化為每日處理更多推理Token,同時降低資料中心的總擁有成本(TCO)——在推理商品化的競賽中,具有關鍵競爭優勢。

推理上下文記憶體存儲平台重新定義系統如何處理長序列AI工作負載的上下文存儲。隨著Agentic AI系統處理多輪對話、RAG流程與複雜多步推理,上下文窗口已擴展至數百萬Token。平台不再在每次推理步驟中重新計算鍵值快取——浪費GPU計算資源並引入延遲——而是將上下文視為一等公民,透過BlueField-4加速、Spectrum-X連接的存儲層來存取與重用。藉由將上下文存儲與GPU記憶體解耦,同時保持NVLink的緊密連結,該平台為重上下文的工作負載提供了5倍的推理性能與5倍的能效提升。這是一個根本的架構轉變:推理瓶頸已從純計算轉向上下文管理。

搭載Vera Rubin的DGX SuperPOD作為一站式AI工廠的藍圖。結合八個Vera Rubin NVL72系統,透過NVLink 6進行垂直擴展,並利用Spectrum-X乙太網進行水平擴展,SuperPOD展示了晶片層級協作設計如何帶來系統層級的成本降低。與前一代Blackwell相比,訓練大型MoE模型所需的GPU數量僅為四分之一,單Token推理成本降低至十分之一。在NVIDIA Mission Control軟體管理下,SuperPOD作為一個統一的推理引擎運作,GPU排程、網路協調與存儲調度皆透明化。

開源擴展:從模型到整合代理的未來

NVIDIA在2025年釋出650個模型與250個資料集,展現其進取的開源策略:用強大的、免費的工具充實開發者,同時使底層硬體愈發不可或缺。

公司已將開源模型與工具整合到「Blueprints」中,這是一個SaaS框架,支援多模型、多雲端的代理系統。這些系統能根據任務需求,自動將查詢路由到本地私有模型或雲端前沿模型,調用外部API進行工具使用,並融合多模態輸入(文字、語音、影像、感測器資料)。將此架構嵌入開發者工作流程,NVIDIA確保即使是成本敏感的組織,也會最終依賴Vera Rubin的推理基礎設施進行生產部署。

擴展的Nemotron家族現包括Agentic RAG模型、安全性優先的變體與語音模型——每一款都解決新興Agentic AI堆疊中的瓶頸。開發者可以微調這些模型,利用Cosmos生成合成資料,並建立兩年前幾乎不可能完成的應用。

物理AI:自動駕駛與現實世界推理的交匯點

NVIDIA將理解現實世界、推理不確定性與執行複雜行動的智能稱為下一個數兆美元的前沿。自動駕駛成為主要的驗證場。

Alpha-Mayo是NVIDIA針對Level 4自動駕駛的開源模型套件,體現了這一願景。擁有10億參數,Alpha-Mayo能進行基於推理的決策,將複雜的駕駛場景拆解成步驟,並選擇最安全的行動。它不再是反應式規則系統,而是理解物體恆存、預測車輛行為,並處理前所未見的邊緣案例——例如繁忙路口的交通燈故障。

梅賽德斯-賓士CLA已經在生產中,並整合Alpha-Mayo,獲得NCAP最高安全評級。NVIDIA DRIVE平台在量產硬體上支援免持駕駛與端到端城市自主能力,展現了物理AI的規模部署準備。Alpha-Sim作為開源評估框架,與Cosmos合成資料生成,幫助全球開發者加速自動駕駛技術。

除了汽車,NVIDIA還宣布與Boston Dynamics、Franka Robotics、LG電子等合作,基於NVIDIA Isaac與GR00T平台。與西門子合作,將NVIDIA技術整合進EDA、CAE與數位孿生工具,將物理AI滲透到設計、模擬、製造與運營的各個環節。

壕溝加深:系統工程成為競爭優勢

隨著AI基礎設施市場由訓練轉向推理經濟,平台競爭已從單一指標(GPU FLOPS)演變為涵蓋晶片、機架、網路與軟體協調的系統工程。

NVIDIA的策略同步在兩個層面展開:在開源層面,積極貢獻模型、工具與資料集,普及AI開發,擴大推理的總體市場規模;在專有層面,緊密整合的Vera Rubin生態系——包括共同設計的晶片、NVLink帶寬、Spectrum-X網路、上下文存儲層與Mission Control軟體——變得愈發難以複製。

這種閉環動態十分強大:透過擴展開源生態系,推動更廣泛的AI採用與Token消耗;藉由提供具成本效益的推理基礎設施,捕捉新興的擴展工作負載;並持續創新硬體架構與GPU排程能力,確保其他平台難以在性能、能效與每Token成本上匹敵。這形成了一個自我強化的優勢,超越任何單一產品週期。

Vera Rubin的發布不僅代表下一代推理硬體,更證明NVIDIA對整合系統的押注——硬體加速、網路協調與軟體優化的融合——已成為產業準則。從超大規模雲端部署SuperPOD,到企業建立私有Agentic AI代理,基礎設施格局正逐步圍繞NVIDIA的願景整合。

對開發者與運營者而言,這個趨勢的意涵很簡單:將加速器簡單裝入通用平台的時代已經結束。未來高效且可擴展的推理,將在專為此任務打造的硬體加速系統上運行。

ERA0.75%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)