Наступна ера прискорення GPU: як NVIDIA Vera Rubin переосмислює апаратне прискорене планування GPU

На CES 2026 Дженсен Хуанг виступив із трансформативною ключовою промовою, яка підкреслює ставку NVIDIA на концепцію “bet-the-company”: перехід від епохи, орієнтованої виключно на тренування ШІ, до епохи, домінованої ефективною, масштабною інференцією та втіленим інтелектом. За 90 хвилин генеральний директор NVIDIA оголосив вісім основних анонсів, кожен із яких підсилює єдину стратегію — створення тісно інтегрованих систем, де апаратне прискорення планування GPU та мережеві обчислення стають нероздільними. Посил був ясним: майбутнє належить не ізольованим прискорювачам, а системам, спроектованим для економічної пропускної здатності.

Платформа Vera Rubin: шести-чиповий підхід до прискореного проектування систем

Vera Rubin уособлює фундаментальне переосмислення архітектури дата-центрів. Замість того, щоб просто додавати прискорювачі до універсальної інфраструктури, NVIDIA спільно розробила шість доповнювальних чипів — Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU та Spectrum-X CPO — кожен з яких оптимізовано для роботи як єдина екосистема.

Vera CPU, побудований на кастомних ядрах Olympus, обробля переміщення даних та агентську обробку з NVLink-to-CPU швидкістю 1.8TB/с, ефективно координуючи роботу, необхідну для планування GPU. Rubin GPU вводить трансформерний движок та інференційну здатність NVFP4, що досягає 50 PFLOPS — у 5 разів перевищує продуктивність Blackwell — при підтримці пам’яті HBM4 з пропускною здатністю 22TB/с, у 2.8 рази швидше за попереднє покоління. Ці характеристики мають значення не самі по собі, а тому, що вони вирішують критичну проблему: з ростом моделей та збільшенням кількості токенів для інференції традиційні підходи до планування GPU стають вузьким місцем через обмеження пропускної здатності пам’яті та витрати на переміщення даних.

Об’єднання всіх компонентів у систему одного стелажа дозволяє Vera Rubin NVL72 досягти 3.6 EFLOPS продуктивності інференції з 2 трильйонами транзисторів. Ще важливіше, архітектура системи забезпечує апаратне прискорення планування GPU у масштабах, раніше недосяжних. NVLink 6 Switch досягає 3.6TB/с повної пропускної здатності між з’єднаннями на кожен GPU (2x попереднього покоління), з обчисленнями у мережі на 14.4 TFLOPS FP8. Це не просто більше пропускної здатності — це пропускна здатність, спрямована на усунення вузьких місць у плануванні, характерних для розподілених робочих навантажень інференції.

Система використовує 100% рідинне охолодження та має модульну безвентиляторну платформу для обчислень, що зменшує час зборки з двох годин до п’яти хвилин. Безперервне обслуговування через модуль NVLink Switch та друге покоління RAS-двигуна забезпечують необхідну надійність роботи інференційних кластерів. Уже понад 80 партнерів MGX готові до розгортання Vera Rubin.

Три інновації для досягнення межі ефективності інференції

Крім апаратної бази, NVIDIA випустила три продукти, спеціально розроблені для подолання вузьких місць інференції: Spectrum-X Ethernet CPO, платформу зберігання контекстної пам’яті для інференції та DGX SuperPOD на базі Vera Rubin.

Spectrum-X Ethernet Co-Packaged Optics використовує двочипову архітектуру з технологією SerDes 200Gbps, забезпечуючи 102.4Tb/с на ASIC. У порівнянні з традиційними комутованими мережами архітектура CPO досягає у 5 разів вищої енергоефективності, у 10 разів — більшої надійності та у 5 разів — більшої стабільності роботи додатків. Це безпосередньо дозволяє обробляти більше токенів інференції щодня та зменшувати TCO дата-центру — критична конкурентна перевага у гонитві за комодитизацію інференції.

Платформа зберігання контекстної пам’яті для інференції переосмислює спосіб обробки контексту для довгих послідовностей AI. Оскільки агентські системи AI обробляють багатократні діалоги, RAG-пайплайни та складне багатоступеневе мислення, контекстні вікна тепер сягають мільйонів токенів. Замість повторного обчислення кешів ключ-значення на кожному кроці інференції — що марнує GPU-обчислення та вводить затримки — платформа розглядає контекст як перший клас громадян, зберігаючи та повторно використовуючи його через прискорювач BlueField-4 та підключену до Spectrum-X сховище. Відокремлюючи зберігання контексту від пам’яті GPU, але підтримуючи тісний зв’язок через NVLink, платформа забезпечує у 5 разів вищу продуктивність інференції та у 5 разів — енергоефективність для навантажень з великим обсягом контексту. Це фундаментальна архітектурна зміна: вузьке місце інференції змістилося з обчислювальної потужності до управління контекстом.

DGX SuperPOD з Vera Rubin слугує зразком для створення готових до запуску AI-фабрик. Об’єднання восьми систем Vera Rubin NVL72 із вертикальним масштабуванням через NVLink 6 та горизонтальним — через Spectrum-X Ethernet — демонструє, як колаборативне проектування чипів перетікає у зниження вартості системного рівня. У порівнянні з попереднім поколінням Blackwell, тренування великих моделей MoE вимагає лише 1/4 кількості GPU, а вартість інференції на токен зменшується у 10 разів. Управління здійснюється через програмне забезпечення NVIDIA Mission Control, і SuperPOD працює як єдиний інференційний двигун, де планування GPU, мережеві операції та координація сховищ відбуваються прозоро.

Відкритий Amplifier: від моделей до інтегрованих агентів

Агресивне розширення відкритих моделей NVIDIA — 650 моделей і 250 датасетів, випущених у 2025 — відображає складну стратегію: наситити розробників потужними, безкоштовними інструментами і водночас робити апаратне забезпечення все більш незамінним.

Компанія інтегрувала відкриті моделі та інструменти у “Blueprints” — SaaS-рамку, що дозволяє створювати багатомодельні, багатоклаудні агентські системи. Ці системи автоматично маршрутизують запити до локальних приватних моделей або до фронтирних моделей у хмарі залежно від задач, викликають зовнішні API для використання інструментів і поєднують мультимодальні входи (текст, голос, зображення, дані сенсорів). Вбудовуючи цю архітектуру у робочі процеси розробників, NVIDIA гарантує, що навіть економні організації, що базуються на відкритих моделях, у кінцевому підсумку залежать від інфраструктури інференції Vera Rubin для виробничих розгортань.

Розширена лінійка Nemotron тепер включає агентські RAG-моделі, варіанти з фокусом на безпеку та мовні моделі — кожна з яких вирішує вузькі місця у новій стековій архітектурі Agentic AI. Розробники можуть тонко налаштовувати ці моделі, генерувати синтетичні дані через Cosmos і створювати застосунки, які ще два роки тому були б надзвичайно складними.

Фізичний AI: де автономне водіння зустрічається з реальним світом

NVIDIA позиціонує фізичний AI — інтелект, що розуміє реальний світ, аналізує невизначеність і виконує складні дії — як наступний багатотрильйонний фронтир. Автономні автомобілі виступають головним полігоном для демонстрації.

Alpha-Mayo, відкритий набір моделей NVIDIA для рівня 4 автономного водіння, втілює цю концепцію. З 10 мільярдами параметрів, Alpha-Mayo дозволяє приймати рішення на основі аналізу, розбиваючи складні сценарії водіння на кроки та обираючи найбезпечніший варіант. Замість реактивних правилових систем модель розуміє перманентність об’єктів, прогнозує поведінку автомобілів і справляється з унікальними випадками — наприклад, несправністю світлофора на переповненому перехресті.

Mercedes-Benz CLA, що вже у виробництві з інтеграцією Alpha-Mayo, отримав найвищий рейтинг безпеки NCAP. Платформа NVIDIA DRIVE, що працює на виробничому обладнанні, підтримує безруке керування на автомагістралях і повну автономію у місті — можливості, що демонструють готовність фізичного AI до масштабного впровадження. Alpha-Sim, відкритий фреймворк для оцінки, та синтетичні дані через Cosmos дозволяють розробникам по всьому світу прискорити розробку автономних автомобілів.

Крім автомобільної сфери, NVIDIA оголосила про партнерства з Boston Dynamics, Franka Robotics, LG Electronics та іншими, що базуються на платформах NVIDIA Isaac і GR00T. Співпраця з Siemens інтегрує технології NVIDIA у EDA, CAE та цифрові двійники, поширюючи фізичний AI у проектуванні, моделюванні, виробництві та експлуатації.

Глибина ринкової переваги: системна інженерія як конкурентна перевага

Зі зміною ринку AI-інфраструктури від моделі, орієнтованої на тренування, до економіки інференції, конкуренція платформ зосередилася не лише на одному показнику (GPU FLOPS), а на системній інженерії, що охоплює чипи, стелажі, мережі та програмне забезпечення.

Стратегія NVIDIA реалізується одночасно у двох напрямках. З одного боку, компанія активно сприяє розвитку відкритої екосистеми — моделі, інструменти та датасети, що розширюють ринок інференції та демократизують AI. З іншого — закрита екосистема Vera Rubin із спільним проектуванням чипів, пропускною здатністю NVLink, мережею Spectrum-X, шарами зберігання контексту та Mission Control стає дедалі важчою для копіювання.

Ця динаміка створює потужний зворотній зв’язок: розширюючи відкриту екосистему, NVIDIA сприяє ширшому впровадженню AI і зростанню токенів; забезпечуючи економічну інфраструктуру для інференції, компанія захоплює масштабовані робочі навантаження; постійно вдосконалюючи апаратне проектування та можливості планування GPU, NVIDIA ускладнює конкуренцію з іншими платформами у досягненні співвідношення продуктивності та енергоефективності. Це створює самопідсилюючу перевагу, що виходить за межі окремого продуктового циклу.

Анонс Vera Rubin — це не просто наступне покоління апаратного забезпечення для інференції, а підтвердження того, що ставка NVIDIA на інтегровані системи — де апаратне прискорення, мережеве управління та програмна оптимізація зливаються — стала галузевою доктриною. Від гіперскалярів, що розгортають SuperPOD, до підприємств, що створюють приватних агентських AI на DGX-кластерах, інфраструктурний ландшафт консолідується навколо бачення NVIDIA.

Для розробників і операторів це очевидно: ера додавання прискорювачів у універсальні платформи остаточно завершена. Майбутнє ефективної, масштабованої інференції — у системах, що апаратно прискорені та спеціально створені для цієї задачі.

ERA1,05%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити