Coup de maître ! Nvidia lance 7 puces d'affilée, le discours de Jensen Huang fait le buzz

Le 17 mars au petit matin, la conférence annuelle GTC de Nvidia s’est tenue comme prévu. Lors de son discours principal, le fondateur et CEO de Nvidia, Jensen Huang, a annoncé plusieurs percées technologiques majeures, tout en lançant une prédiction audacieuse selon laquelle la nouvelle architecture de puces AI accélératrices de prochaine génération pourrait générer au moins 10 000 milliards de dollars de revenus.

Suite à son allocution, le cours de l’action Nvidia a bondi en réponse, atteignant un sommet intraday en hausse de 4,31 %, pour finir en hausse de 1,65 % à la clôture.

Le secteur des concepts montre qu’actuellement, près de 60 actions en Chine A-share sont liées au concept Nvidia, avec une capitalisation totale dépassant 2,7 billions de yuans. Parmi elles, Industrial Fuxin (601138) domine largement, tandis que Shenghong Technology (300476) et Yingweike (002837) ont également une capitalisation dépassant les 100 milliards de yuans. QH Technology (603296), Inspur (000977), Unigroup (000938), Magmet (002851) figurent parmi les acteurs de plus grande envergure.

Depuis le début de l’année, la tendance des actions liées à Nvidia s’est différenciée : environ 60 % ont enregistré une hausse. Parmi elles, Litong Electronics (603629) a connu la plus forte progression, multipliant par 1,3 ses gains. Helin Micro-Nano (和林微纳) et Robotech (300757) ont respectivement augmenté de 86,82 % et 62,42 %. D’autres, comme Hongchang Electronics (603002), Shunwang Technology (300113), Magmet et Hangjin Technology (000818), ont vu leurs cours augmenter entre 20 % et 50 %.

Lors du GTC, Nvidia a annoncé que sept nouveaux chips de la plateforme Vera Rubin (la toute dernière architecture de puces) sont désormais en production complète. La plateforme Vera Rubin ouvre une nouvelle ère d’Agentic AI, construisant la plus grande usine d’IA au monde.

Plus précisément, ces produits de puces incluent :

NVIDIA Vera CPU (oui, Nvidia s’attaque aussi aux CPU serveurs)

NVIDIA Rubin GPU (le fleuron des GPU)

NVIDIA NVLink 6 (la sixième génération de commutateurs NVLink, pour l’interconnexion interne des puces)

NVIDIA ConnectX-9 SuperNIC (super carte réseau)

NVIDIA BlueField-4 DPU (puce de stockage)

NVIDIA Spectrum-6 (puce de commutateur Ethernet, supportant la technologie CPO)

Et la nouvelle intégration du NVIDIA Groq 3 LPU (la première puce issue de l’intégration de Groq).

On constate que la famille de puces ne se limite pas aux CPU et GPU traditionnels, mais inclut aussi le LPU de Groq, ainsi que des puces de stockage et de commutation. Ces puces peuvent former cinq racks, destinés à fonctionner dans des centres de données.

La plateforme Vera Rubin rassemble toutes ces puces pour créer un superordinateur d’IA puissant. Que ce soit pour un pré-entraînement massif, une extension lors de la post-formation ou des tests, ou pour le raisonnement intelligent en temps réel, cette bête de puissance peut tout supporter.

« Vera Rubin représente une avancée générationnelle — sept puces révolutionnaires, cinq types de racks, un superordinateur colossal — qui alimente chaque étape de l’IA », a déclaré Jensen Huang. « Avec le lancement de Vera Rubin, le tournant de l’Agentic AI est arrivé, et il va ouvrir la plus grande vague de construction d’infrastructures de l’histoire. »

Lors de son discours, Huang a également prédit que d’ici la fin 2027, les revenus issus des puces AI Blackwell et Rubin atteindraient 10 000 milliards de dollars, doublant ainsi la prévision de 500 milliards de dollars réalisée en octobre dernier.

Ce lancement est sans précédent : il ne s’agit pas seulement de GPU ou d’une simple mise à jour technologique. Huang a encore une fois souligné l’économie des « tokens » et appliqué la théorie du « gâteau à cinq couches » de l’IA.

Dès la pré-annonce du GTC 2026 en février, Huang avait déclaré : « Nous préparons plusieurs nouvelles puces sans précédent dans le monde. Toutes les technologies ont atteint leurs limites, il n’y a donc rien de facile. »

D’un côté, la description de « nouvelles puces inédites » excite le monde entier. Nvidia, au cours des dix dernières années, n’a cessé de lancer des puces haute performance, rendant l’excès de performance une norme quotidienne. La trajectoire technologique de Nvidia est claire : de Hopper à Blackwell, puis Rubin et Feyman. Huang a fixé un objectif d’au moins cinq ans pour la capacité de livraison de puissance de calcul.

De l’autre côté, la déclaration que « toutes les technologies ont atteint leurs limites » n’est pas une simple stratégie de communication. Elle soulève des inquiétudes dans le marché financier très en vogue. La signification implicite est que les progrès à l’échelle des quantités pourraient être prématurément épuisés, rendant plus difficile toute nouvelle avancée majeure.

Lors de cette présentation, Nvidia a également introduit une innovation systémique. Dans le long développement de l’IA, si les deux dernières années ont été marquées par une « course aux armements » en puissance de calcul, 2026 marque l’ouverture d’une nouvelle ère d’évolution systémique. La compétition ne se limite plus à la simple puce, mais s’oriente vers une construction systématique des infrastructures d’IA.

Jensen Huang a rappelé lors du GTC l’année dernière que Nvidia voulait devenir une entreprise d’infrastructures IA, et cette transformation est désormais en marche. Nvidia ne se contente pas d’être un simple « fournisseur d’outils » ; en construisant un système complet allant de la puissance de calcul aux applications, elle devient progressivement la plateforme fondamentale de tout l’écosystème IA, aspirant à jouer le rôle de l’eau et de l’électricité dans l’ère de l’IA.

Par ailleurs, Nvidia a publié une série de progrès importants autour de l’agent IA (Agent), des modèles ouverts et des applications intersectorielles : lancement de Nemo Claw, la version Nvidia du « homard » ; présentation du plan de la « Physical AI Data Factory » (usine de données physique ouverte) pour accélérer le développement de robots, d’agents visuels IA et de véhicules autonomes ; et, pour l’espace, lancement du service de calcul spatial, intégrant l’IA dans les centres de données orbitaux (ODC), l’intelligence géospatiale et la gestion autonome spatiale. Le module Vera Rubin Space-1 est la dernière composante de cette gamme.

Une tendance se dessine : les géants accumulent sans cesse des capacités, comblent leurs lacunes, étendent leur chaîne d’approvisionnement en amont et en aval, et créent ainsi des barrières plus solides. La phase où la compétition se limitait à la seule puce ou à la performance est révolue : une compétition systémique féroce à tous les niveaux est en cours.

La révolution complète de Vera Rubin : de la puce unique à l’ère systémique

En tant que successeur de Blackwell, Nvidia prévoit de produire en série à partir de la seconde moitié de 2026 l’architecture Rubin (R100). Sur le plan fondamental, cette architecture adopte entièrement la technologie TSMC 3 nm (N3P). La puce Vera CPU (basée sur l’architecture Olympus à 88 cœurs développée en interne) et le GPU Rubin sont intégrés physiquement via la technologie NVLink-C2C à 1,8 TB/s.

Ce design « sans PCIe » et fortement couplé permet de dépasser les limitations des liaisons traditionnelles. La puissance de raisonnement d’un seul GPU, en précision NVFP4, atteint 50 PFlops, tandis que la puissance d’entraînement est de 35 PFlops. L’efficacité énergétique lors de l’inférence à grande échelle est multipliée par cinq par rapport à Blackwell.

Concrètement, la gamme de racks composée de ces nouvelles puces comprend : tout d’abord, le Vera Rubin NVL72, qui connecte 72 GPU Rubin et 36 CPU Vera via NVLink 6, et est équipé de ConnectX-9 SuperNIC et BlueField-4 DPU pour améliorer l’efficacité.

Selon les informations, lors de l’entraînement de grands modèles experts hybrides, le système Rubin nécessite seulement un quart du nombre de GPU par rapport à Blackwell, tout en offrant un débit d’inférence par watt jusqu’à dix fois supérieur, et un coût par token réduit d’un dixième. Ce système, conçu pour des usines d’IA ultra-massives à l’échelle mondiale, peut s’étendre sans couture via NVIDIA Quantum-X800 InfiniBand et Spectrum-X Ethernet, maintenant un taux d’utilisation élevé dans de grands clusters GPU, tout en réduisant le temps d’entraînement et le coût total de possession.

Sur le plan applicatif, Rubin est conçu spécifiquement pour l’IA agentique (Agentic AI) et le raisonnement sur de longues séquences. Il intègre le Transformer Engine 3.0 et la plateforme de mémoire d’inférence (Inference Context Memory), déchargeant la gestion du stockage sur le DPU BlueField-4, permettant à l’IA de gérer des contextes de dizaines de milliers de tokens, de faire du raisonnement multi-étapes et des décisions en temps réel. La plateforme dispose d’un réseau Ethernet photoniquement supporté par la technologie CPO, Spectrum-X, avec une bande passante interne de 260 TB/s dans un seul rack NVL72, plusieurs fois la capacité de bande passante transfrontalière d’Internet mondial.

Outre le rack GPU, Nvidia a lancé le rack CPU Vera, basé sur l’infrastructure à haute densité refroidie par liquide MGX, intégrant 256 CPU Vera, offrant une capacité évolutive, économe en énergie, avec des performances monocœur de classe mondiale. Associé au rack GPU, il constitue la plateforme CPU pour une IA agentique à grande échelle et l’apprentissage renforcé — Vera double l’efficacité des CPU traditionnels, avec une augmentation de vitesse de 50 %.

Les clients actuels utilisant Vera CPU incluent Alibaba, ByteDance, Meta, Oracle Cloud Infrastructure, ainsi que CoreWeave, Lambda, Nebius et Nscale. Vera est désormais en production complète, avec livraison prévue dès la seconde moitié de cette année.

Parallèlement à l’amélioration des performances des puces et des racks, Nvidia accorde une attention croissante à la consommation d’énergie et à la gestion énergétique. L’énergie constitue aujourd’hui le principal frein à la développement des infrastructures IA. Nvidia collabore avec des fournisseurs d’énergie pour accélérer l’approvisionnement électrique et renforcer la stabilité du réseau électrique. Elle a aussi lancé avec plus de 200 partenaires dans le domaine des centres de données la plateforme DSX, appliquée à Vera Rubin.

La nouvelle plateforme DSX comprend notamment DSX Max-Q, qui permet une gestion dynamique de l’alimentation électrique dans toute l’usine d’IA, déployant 30 % de capacité supplémentaire dans les centres de données à puissance fixe. Le logiciel DSX Flex transforme l’usine d’IA en un actif flexible du réseau électrique, libérant 100 GW d’énergie inutilisée.

On voit qu’avec Vera Rubin, Nvidia ne se limite plus à une simple carte graphique : elle devient une « unité de supercalculateur » intégrant puissance, interconnexion, stockage et refroidissement liquide en symbiose, marquant l’entrée dans une nouvelle ère où le coût par token chute de dix fois, et l’efficacité énergétique s’améliore de huit fois.

Comme Nvidia l’a souligné, l’infrastructure IA évolue rapidement, passant des puces disjointes et serveurs autonomes à des systèmes intégrés de rack, déployés en POD, en usines d’IA ou en IA souveraine.

Nvidia a également lancé une conception de référence pour l’usine d’IA Vera Rubin DSX, montrant comment concevoir, construire et exploiter toute la pile d’infrastructure d’usine d’IA, comprenant calcul, réseau Ethernet Spectrum-X et stockage, pour une performance de cluster reproductible, évolutive et optimale.

Les centres de données traditionnels et les infrastructures IA sont en pleine mutation. Huang a déclaré : « À l’ère de l’IA, le token intelligent est la nouvelle monnaie, et l’usine d’IA est l’infrastructure qui génère ces tokens. Grâce à la conception de référence Vera Rubin DSX AI Factory et au plan numérique Omniverse DSX, nous fournissons la base pour construire la plus productive usine d’IA au monde, accélérant le délai de premier revenu, tout en maximisant l’échelle et l’efficacité énergétique. »

Huang a aussi annoncé la prochaine génération du système Feynman, prévu pour 2028, équipé de GPU, LPU, d’un nouveau CPU nommé Rosa, Bluefield 5 et de l’architecture Kyber, supportant la connectivité par câble en cuivre et CPO.

Le chip d’inférence Groq LPU : bâtir un empire hybride avec GPU

Regardons maintenant le très attendu chip Groq.

Fin 2025, Nvidia, via une licence stratégique de 20 milliards de dollars, a intégré en profondeur l’architecture Groq LPU (Language Processing Unit), qui devient le « missile supersonique » pour réduire la latence et ouvrir l’ère de l’interaction en temps réel. Cette collaboration marque le passage de Nvidia de la simple optimisation de l’entraînement à celle de l’efficacité de l’inférence, en introduisant la nouvelle paradigme logiciel-définie de Groq, dirigée par Jonathan Ross (l’ancien père de TPU chez Google), pour dépasser les limites de performance des GPU traditionnels dans les scénarios d’inférence générative.

Nvidia indique que le lancement du Groq 3 LPX (le rack) constitue une étape clé dans le calcul accéléré. Ce rack comprend 256 processeurs LPU, avec 128 GB de SRAM intégré et une bande passante d’extension de 640 TB/s. Lorsqu’il est déployé avec Vera Rubin NVL72, GPU Rubin et LPU collaborent pour accélérer le décodage en calculant chaque couche du modèle IA, fournissant ainsi la puissance de calcul pour chaque token généré.

En d’autres termes, le LPX est conçu pour répondre aux besoins de faible latence et de contexte étendu des systèmes agentiques. Associé à Vera Rubin, il permet d’atteindre jusqu’à 35 fois la capacité de traitement par mégawatt en inference, offrant jusqu’à dix fois plus de revenus potentiels pour des modèles de trillion de paramètres.

De plus, l’architecture LPX est optimisée pour des modèles de trillion de paramètres et des contextes de millions de tokens, en collaboration avec Vera Rubin, pour maximiser l’efficacité en consommation, mémoire et calcul. Cela ouvre une nouvelle dimension d’inférence — ultra-haute gamme, trillion de paramètres, millions de tokens — augmentant considérablement les opportunités de revenus pour tous les fournisseurs d’IA.

Le LPX adopte aussi un refroidissement liquide complet, basé sur l’infrastructure MGX, et sera intégré sans couture dans la prochaine génération d’usines d’IA Vera Rubin, avec une disponibilité prévue pour la seconde moitié de 2023.

Entrant dans l’ère de l’inférence, Nvidia, en plus des GPU, fusionne de nouvelles architectures pour améliorer drastiquement l’efficacité.

Sur le plan architectural, le LPU de Groq abandonne la gestion complexe du cache, la prédiction de branchement et la réorganisation d’instructions, caractéristiques des GPU traditionnels, pour adopter une architecture de pipeline déterministe. Ce design déporte toute la complexité matérielle vers le compilateur, garantissant un flux de données dans la puce aussi précis qu’un tapis roulant, sans jitter (fluctuation).

Pour dépasser le « mur de stockage » qui handicape l’industrie depuis longtemps, le LPU abandonne la mémoire HBM à haute bande passante mais à haute latence, pour se doter de 230 MB de SRAM intégré, avec une bande passante mémoire de 80 TB/s, soit dix fois celle du GPU Blackwell de pointe. Avec cette bande passante extrême, le LPU peut réaliser une latence quasi nulle en inference en mode batch size 1, avec une vitesse de génération de tokens dépassant 1600 tokens/sec, faisant passer la réponse des grands modèles linguistiques de « réponse mot à mot » à « génération instantanée ».

En résumé, la raison pour laquelle vous avez l’impression que votre conversation avec le « machine à écrire » est lente, c’est parce que la puissance de calcul n’est pas suffisante. Avec la capacité du LPU, l’avenir de la conversation IA sera instantané, avec une sortie complète en une seule fois. Cette avancée dépend fortement de la vitesse d’inférence.

Dans les applications concrètes, le rack LPU, soutenu par la technologie Nvidia, devient la seule solution pour l’IA agentique (Agentic AI) et la communication vocale en temps réel. Dans les systèmes d’aide à la conduite ou les robots de trading haute fréquence, chaque milliseconde compte, et la puissance déterministe du LPU garantit une constance dans le temps d’exécution.

Pour des chaînes d’agents complexes nécessitant plusieurs étapes de raisonnement ou des centaines d’appels de modèles, le LPU peut réduire un processus qui prendrait plusieurs minutes à quelques secondes, permettant à l’IA de dialoguer et de collaborer de façon naturelle et fluide en temps réel, comme un humain. Pour supporter cette nouvelle norme de calcul, Nvidia intègre le module LPU dans son écosystème CUDA via la technologie NVFusion, en utilisant une architecture déconnectée (disaggregated) pour transférer rapidement les poids entraînés du GPU vers le réseau de calcul du LPU.

Grâce à cette capacité, Nvidia sépare entraînement et inférence, bâtissant ainsi un empire hybride de puissance de calcul : le GPU se concentre sur la formation de modèles massifs à trillion de paramètres et le pré-traitement de longs textes, tandis que le réseau de LPUs, avec une efficacité dix fois supérieure et une réponse ultra-rapide, domine le marché de l’inférence en temps réel à l’échelle du trillion de paramètres, annonçant officiellement l’ère de l’inférence instantanée.

Lancement du « homard » Nvidia : vers l’ère des agents intelligents

Parallèlement, Nvidia a publié une série de progrès importants autour des agents IA, des modèles ouverts et des applications intersectorielles. Alors que l’IA évolue d’un simple outil de dialogue vers un « agent » capable de planifier ses tâches, d’appeler des outils et d’exécuter des travaux complexes, la plateforme logicielle, les capacités des modèles et l’écosystème deviennent de nouveaux axes de compétition.

Dans ce contexte, Nvidia a lancé Nemo Claw, la version Nvidia du « homard » pour l’écosystème OpenClaw ; a cofondé la coalition Nemotron avec des laboratoires IA mondiaux ; et a étendu plusieurs lignes de modèles ouverts pour renforcer son écosystème d’infrastructure et de modèles IA.

L’annonce la plus remarquée pour les développeurs concerne la plateforme NemoClaw, qui s’adresse à la communauté OpenClaw. Récemment, ce projet open source a connu un succès fulgurant dans la communauté des développeurs, étant considéré comme une esquisse d’un « système d’exploitation personnel IA ».

Huang a également loué OpenClaw : « OpenClaw ouvre la voie à la prochaine frontière de l’IA pour tous, et devient le projet open source à la croissance la plus rapide de l’histoire », a-t-il déclaré. « Mac et Windows sont les systèmes d’exploitation des ordinateurs personnels. OpenClaw est le système d’exploitation de l’IA personnelle. C’est le moment que l’industrie attendait — le renouveau de la nouvelle ère logicielle. » Contrairement aux applications IA traditionnelles, l’objectif d’OpenClaw est de faire fonctionner en continu un agent IA comme une application, capable de planifier ses tâches, d’appeler des outils et d’accomplir des workflows complexes.

Dans ce cadre, NemoClaw fournit un ensemble complet de capacités logicielles de base, permettant aux développeurs d’installer en une seule commande le modèle Nemotron de Nvidia et le nouvel environnement d’exécution OpenShell, tout en ajoutant des contrôles de sécurité et de confidentialité pour l’agent IA. Grâce à l’environnement isolé d’OpenShell, l’agent IA peut accéder aux outils et données en respectant des règles de sécurité et de confidentialité prédéfinies, améliorant ainsi l’efficacité tout en garantissant la sécurité des données.

NemoClaw supporte aussi la combinaison d’appels locaux et cloud pour les modèles. Les développeurs peuvent faire fonctionner le modèle Nemotron sur leur appareil dédié, tout en accédant via un routage privé aux modèles avancés dans le cloud, garantissant la confidentialité des données tout en bénéficiant d’une puissance de calcul accrue. Nvidia indique que NemoClaw peut fonctionner sur diverses plateformes dédiées, y compris des PC et portables équipés de GeForce RTX, des stations de travail RTX PRO, ainsi que des systèmes DGX Station et DGX Spark, assurant une stabilité de calcul pour des agents IA en fonctionnement continu.

En parallèle, Nvidia accélère aussi le développement de l’écosystème de modèles ouverts. Lors de cette conférence, Nvidia a annoncé la création de la coalition Nemotron, réunissant plusieurs laboratoires IA et institutions de développement de modèles à travers le monde, pour promouvoir le développement de modèles ouverts de pointe. Les membres fondateurs incluent Black Forest Labs, Cursor, LangChain, Mistral AI, Perplexity, Reflection AI, Sarvam, et Thinking Machines Lab.

Selon le plan, le premier projet de la coalition sera une collaboration entre Mistral AI et Nvidia pour développer un modèle de base, avec la participation d’autres membres pour la contribution de données, la construction de systèmes d’évaluation et le support de connaissances spécialisées. Nvidia indique que ce modèle servira de fondation à la famille de modèles ouverts Nemotron 4, à venir.

Au-delà de la coopération écologique, Nvidia a également étendu plusieurs lignes de modèles ouverts pour soutenir le développement d’agents IA, d’intelligence physique et de recherche médicale. La série Nemotron 3, par exemple, renforce la compréhension multimodale, avec des versions Ultra, Omni et VoiceChat. Ces modèles peuvent traiter simultanément le langage, la vision et la parole, permettant aux agents IA de dialoguer naturellement, de faire des raisonnements complexes, et d’extraire des informations clés à partir de vidéos et de documents.

Au-delà de l’IA dans le numérique, Nvidia pousse aussi l’IA dans le monde réel. Parmi les nouveaux modèles, on trouve ceux destinés aux robots et aux systèmes de conduite autonome : par exemple, NVIDIA Isaac GR00T N1.7, un modèle d’action basé sur la vision et le langage, capable de percevoir, raisonner et agir dans un environnement réel ; NVIDIA Alpamayo 1.5, destiné à la conduite autonome, avec des capacités de navigation, support multi-caméras et réglages paramétriques ; et enfin, NVIDIA Cosmos 3, présenté comme le premier modèle universel combinant « génération du monde, raisonnement physique et simulation d’actions », destiné à aider robots et véhicules autonomes à s’entraîner et à prendre des décisions dans des environnements complexes.

De la plateforme d’agents IA à l’écosystème de modèles ouverts, en passant par la robotique, la conduite autonome et la biologie, Nvidia construit progressivement un système d’IA couvrant le numérique et le physique. Avec l’adhésion croissante de développeurs et d’entreprises à ces écosystèmes ouverts, cette architecture devrait continuer à stimuler l’innovation et la mise en œuvre de l’intelligence artificielle à l’échelle mondiale.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler