Gate 广场创作者新春激励正式开启,发帖解锁 $60,000 豪华奖池
如何参与:
报名活动表单:https://www.gate.com/questionnaire/7315
使用广场任意发帖小工具,搭配文字发布内容即可
丰厚奖励一览:
发帖即可可瓜分 $25,000 奖池
10 位幸运用户:获得 1 GT + Gate 鸭舌帽
Top 发帖奖励:发帖与互动越多,排名越高,赢取 Gate 新年周边、Gate 双肩包等好礼
新手专属福利:首帖即得 $50 奖励,继续发帖还能瓜分 $10,000 新手奖池
活动时间:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
详情:https://www.gate.com/announcements/article/49112
GPU加速的下一时代:NVIDIA的Vera Rubin如何重新定义硬件加速GPU调度
在2026年CES上,黄仁勋发表了一场具有变革性的主题演讲,强调了NVIDIA的“赌一把”的公司愿景:从纯粹专注于AI训练的时代,转向由高效、大规模推理和具象智能主导的新时代。在长达90分钟的演讲中,NVIDIA首席执行官公布了八项重大公告,每一项都强化了一个核心战略——构建紧密集成的系统,使硬件加速的GPU调度与网络计算密不可分。信息十分明确:未来不属于孤立的加速器,而属于为成本效益最大化吞吐量而设计的系统。
Vera Rubin平台:六芯片加速系统设计的创新方案
Vera Rubin代表了数据中心架构的根本性重塑。与其在通用基础设施上随意添加加速器,NVIDIA共同设计了六款互补芯片——Vera CPU、Rubin GPU、NVLink 6交换机、ConnectX-9 SuperNIC、BlueField-4 DPU和Spectrum-X CPO——每一款都经过优化,作为一个有机生态系统协同工作。
Vera CPU采用定制的Olympus核心,负责数据传输和代理处理,配备1.8TB/s NVLink到CPU的连接,有效管理GPU调度所需的协调工作。Rubin GPU引入Transformer引擎和NVFP4推理能力,达到50 PFLOPS——是Blackwell性能的5倍,同时支持22TB/s带宽的HBM4内存,是上一代的2.8倍。这些规格的意义不在于孤立,而在于它们解决了一个关键问题:随着模型规模扩大和推理Token激增,传统GPU调度在内存带宽和数据传输成本上成为瓶颈。
将所有组件集成到单个机架系统中,Vera Rubin NVL72提供3.6 EFLOPS的推理性能,拥有2000亿晶体管。更为重要的是,该系统架构实现了前所未有规模的硬件加速GPU调度。NVLink 6交换机每个GPU实现3.6TB/s的全互联带宽(2倍前一代),网络内计算能力达14.4 TFLOPS FP8精度。这不仅仅是带宽的提升——而是旨在消除分布式推理工作负载中固有调度瓶颈的带宽设计。
该系统采用100%液冷,配备模块化、无风扇的计算托盘,将组装时间从两小时缩短到五分钟。通过NVLink交换机托盘和第二代RAS引擎实现零停机维护,确保推理集群达到数据中心所需的高可靠性。已有超过80家MGX合作伙伴准备部署Vera Rubin。
三项创新,瞄准推理效率的前沿
除了硬件基础,NVIDIA还推出了三款专门应对推理瓶颈的产品:Spectrum-X以太网CPO、推理上下文存储平台,以及基于Vera Rubin的DGX SuperPOD。
Spectrum-X以太网共封装光学采用两芯片设计,利用200Gbps SerDes技术,每个ASIC提供102.4Tb/s的带宽。与传统交换网络相比,CPO架构实现了5倍的能效提升、10倍的可靠性增强和5倍的应用正常运行时间改善。这直接带来每日处理更多推理Token的能力,同时降低数据中心的总拥有成本(TCO)——在推理商品化的竞争中具有关键优势。
推理上下文存储平台重新定义了系统处理长序列AI工作负载的上下文存储方式。随着Agentic AI系统处理多轮对话、RAG管道和复杂多步推理,上下文窗口已扩展到数百万Token。平台不再在每次推理步骤中重新计算键值缓存——避免浪费GPU计算资源和引入延迟,而是将上下文作为一等公民,存储并通过BlueField-4加速、Spectrum-X连接的存储层进行重用。通过将上下文存储与GPU内存解耦,同时保持通过NVLink的紧密连接,平台为上下文密集型工作负载提供了5倍的推理性能和5倍的能效提升。这是一次根本的架构转变:推理瓶颈已从纯计算转向上下文管理。
搭载Vera Rubin的DGX SuperPOD成为一站式AI工厂的蓝图。结合八个Vera Rubin NVL72系统,通过NVLink 6实现垂直扩展,通过Spectrum-X以太网实现水平扩展,SuperPOD展示了芯片级设计协作如何带来系统级的成本降低。与前一代Blackwell相比,训练大型MoE模型所需GPU数量仅为四分之一,单Token推理成本降低到十分之一。在NVIDIA Mission Control软件的管理下,SuperPOD作为一个统一的推理引擎运行,GPU调度、网络编排和存储协调都实现了透明化。
开源放大器:从模型到集成代理
NVIDIA在2025年仅一年内就发布了650个模型和250个数据集,展现了其复杂的战略:用强大的、免费提供的工具充实开发者,同时让底层硬件变得不可或缺。
公司已将开源模型和工具整合到“Blueprints”中,这是一个SaaS框架,支持多模型、多云的Agentic系统。这些系统能自动将查询路由到本地私有模型或云端前沿模型,根据任务需求调用外部API,融合多模态输入(文本、语音、图像、传感器数据)。通过将此架构嵌入开发者工作流程,NVIDIA确保即使是注重成本的组织,也会在生产部署中依赖Vera Rubin的推理基础设施。
扩展的Nemotron家族现包括Agentic RAG模型、安全性优先的变体和语音模型——每一款都解决了新兴Agentic AI堆栈中的瓶颈。开发者可以微调这些模型,利用Cosmos生成合成数据,构建两年前几乎不可能实现的应用。
物理AI:自动驾驶与现实世界推理的结合
NVIDIA将理解真实世界、推理不确定性、执行复杂动作的“物理AI”视为下一个万亿级前沿。自动驾驶成为主要的试验场。
Alpha-Mayo,NVIDIA面向Level 4自动驾驶的开源模型套件,体现了这一愿景。拥有10亿参数,Alpha-Mayo支持基于推理的决策,将复杂的驾驶场景拆解成步骤,选择最安全的行动。它不再是反应式规则系统,而是理解物体持久性、预测车辆行为、应对前所未见的边缘情况——比如繁忙交叉口的交通信号灯故障。
梅赛德斯-奔驰的CLA已在生产中集成Alpha-Mayo,获得了NCAP最高安全评级。NVIDIA DRIVE平台在生产硬件上支持免提高速公路驾驶和端到端城市自动驾驶能力,展示了物理AI的规模部署准备。Alpha-Sim开源评估框架和Cosmos生成的合成数据,帮助全球开发者加速自动驾驶技术发展。
除了汽车领域,NVIDIA还宣布与波士顿动力、Franka Robotics、LG电子等合作,基于NVIDIA Isaac和GR00T平台。与西门子合作,将NVIDIA技术融入EDA、CAE和数字孪生工具,推动物理AI在设计、仿真、制造和运营中的应用。
壕沟加深:系统工程成为竞争优势
随着AI基础设施市场从以训练为中心转向以推理为核心的经济模型,平台竞争已从单一指标(GPU FLOPS)演变为涵盖芯片、机架、网络和软件编排的系统工程。
NVIDIA在两个层面同步推进战略。一方面,在开源方面,积极贡献模型、工具和数据集,普及AI开发,扩大推理的潜在市场;另一方面,在专有技术方面,Vera Rubin生态系统——包括共同设计的芯片、NVLink带宽、Spectrum-X网络、上下文存储层和Mission Control软件——变得越来越难以复制。
这种闭环动态极具威慑力:通过扩大开源生态,推动更广泛的AI采用和Token消耗;通过提供具有成本效益的推理基础设施,捕获不断增长的工作负载;通过持续创新硬件架构和GPU调度能力,确保竞争平台难以在性能/功耗和每Token成本上匹敌。这形成了一个自我强化的优势,超越任何单一产品周期。
Vera Rubin的发布不仅代表下一代推理硬件,更验证了NVIDIA对“硬件加速、网络调度、软件优化融合”的集成系统的赌注已成为行业准则。从超大规模云服务商部署SuperPOD,到企业在DGX集群上构建私有的Agentic AI代理,基础设施格局正逐步围绕NVIDIA的愿景整合。
对开发者和运营者而言,意义十分明确:将加速器简单嵌入通用平台的时代已彻底结束。未来高效、可扩展的推理,将在为任务量身定制的硬件加速系统上运行。