Deux milliards de dollars : OpenAI et Nvidia mènent la « guerre de l'inférence »

NVIDIA et OpenAI investissent chacun 20 milliards de dollars dans le marché des puces d’inférence AI, Cerebras dépose une demande d’introduction en bourse évaluée à 35 milliards de dollars. Cette guerre silencieuse pour le contrôle futur de la puissance de calcul AI, est en train de remodeler la configuration du marché technologique valant des centaines de milliards de dollars. Cet article provient de Wallstreet Jingwen, organisé et rapporté par PANews.
(Précédent : La croissance de 114 % des revenus de NVIDIA dépasse les attentes, pourquoi Huang Renxun n’a-t-il pas peur de l’impact de DeepSeek ?)
(Contexte supplémentaire : The Economist annonce que 2025 sera l’ère des « Agents IA », mais trois difficultés doivent être notées)

Table des matières de l’article

Toggle

  • Qu’est-ce que l’inférence, pourquoi le mot-clé de 2026 ne sera plus « entraînement »
  • Le problème de NVIDIA : des puces conçues pour l’entraînement, naturellement peu adaptées à l’inférence
  • Les 20 milliards de NVIDIA : une reconnaissance derrière la plus grande acquisition de l’histoire
  • Les 20 milliards d’OpenAI : acheter des puces n’est que la surface, l’investissement en actions est la clé
  • Cerebras aujourd’hui en IPO, qu’achetez-vous réellement

En décembre 2025, NVIDIA a discrètement dépensé 20 milliards de dollars pour acquérir une société de puces AI appelée Groq.

Le 17 avril 2026, OpenAI annonce qu’il achètera pour plus de 20 milliards de dollars de puces auprès d’une autre société de puces AI, Cerebras. Le même jour, Cerebras dépose officiellement un dossier d’IPO auprès du NASDAQ, avec une valorisation cible de 35 milliards de dollars.

Ces deux montants, presque identiques. L’un est une acquisition, l’autre un achat. L’un provient du plus grand vendeur mondial de puces AI, l’autre du plus grand acheteur mondial d’AI.

Ce ne sont pas deux événements indépendants, mais deux mouvements symétriques dans la même guerre. Le nom du champ de bataille : l’inférence AI.

La majorité des gens n’ont pas remarqué cette guerre. Parce qu’elle ne fait pas de bruit d’explosion, seulement des annonces financières et des discussions techniques circulant dans la communauté des ingénieurs de Silicon Valley. Mais son impact pourrait être plus profond que n’importe quelle conférence AI des deux dernières années — car elle redistribue le contrôle d’un marché technologique qui deviendra probablement le plus grand de l’histoire.

Qu’est-ce que l’inférence, pourquoi le mot-clé de 2026 ne sera plus « entraînement »

Avant de parler des deux investissements de 20 milliards, il faut comprendre un contexte : le champ de bataille des puces AI est en train de changer de centre de gravité.

L’entraînement et l’inférence sont deux phases de consommation de puissance de calcul AI. L’entraînement consiste à créer un modèle — alimenter un réseau neuronal avec une quantité massive de données pour lui apprendre une capacité. Ce processus se produit généralement une seule fois ou lors de mises à jour régulières. L’inférence consiste à utiliser le modèle — chaque fois qu’un utilisateur pose une question, ChatGPT fournit une réponse, ce qui constitue une requête d’inférence.

En 2023, la majorité des dépenses mondiales en puissance de calcul AI concerne l’entraînement, l’inférence étant un rôle secondaire.

Mais ce ratio est en train de s’inverser rapidement.

Selon des études de marché de Deloitte et CES 2026, en 2025, l’inférence représentait déjà 50 % de toutes les dépenses en puissance de calcul AI ; en 2026, ce ratio atteindra deux tiers. Le PDG de Lenovo, Yang Yuanqing, l’a dit plus franchement lors du CES : la structure des dépenses AI passera de « 80 % entraînement + 20 % inférence » à « 20 % entraînement + 80 % inférence ».

La logique est simple. L’entraînement est un coût ponctuel, l’inférence un coût continu. GPT-4 a été entraîné une seule fois, mais doit répondre à des centaines de millions d’utilisateurs chaque jour, chaque conversation étant une requête d’inférence. Après déploiement à grande échelle, la consommation cumulée d’inférence dépasse largement celle de l’entraînement.

Que cela signifie-t-il ? Que la partie la plus lucrative de l’industrie AI est en train de passer de « puces d’entraînement » à « puces d’inférence ». Et ces deux types de puces nécessitent des architectures radicalement différentes.

Le problème de NVIDIA : des puces conçues pour l’entraînement, peu adaptées à l’inférence

Les H100 et H200 de NVIDIA sont des monstres conçus pour l’entraînement. Leur avantage principal est un débit de calcul extrêmement élevé — l’entraînement nécessite de faire de nombreuses multiplications matricielles sur d’immenses matrices, et les GPU excellent dans ce type de « calcul parallèle multi-core ».

Mais le goulot d’étranglement de l’inférence n’est pas le calcul, mais la bande passante mémoire.

Lorsque l’utilisateur pose une question, la puce doit transférer l’intégralité des poids du modèle depuis la mémoire vers l’unité de calcul, avant de produire une réponse. Ce processus de « transfert » est la véritable source de latence en inférence. Les GPU de NVIDIA utilisent une mémoire haute bande passante externe (HBM), mais ce transfert introduit inévitablement une latence — pour ChatGPT traitant plusieurs milliers de requêtes par seconde, cette latence, multipliée par l’échelle, devient un vrai goulot d’étranglement.

Les ingénieurs d’OpenAI ont remarqué ce problème en optimisant Codex (outil de génération de code), et ont constaté que, peu importe les réglages, la vitesse de réponse était limitée par la conception du GPU NVIDIA.

En d’autres termes, le désavantage de NVIDIA en inférence n’est pas une question d’effort, mais d’architecture.

Cerebras a adopté une approche totalement différente avec sa puce WSE-3. Cette puce est si grande qu’elle nécessite une encapsulation à l’échelle wafer — une surface de 46 255 mm², plus grande que la paume d’une main — intégrant 900 000 cœurs AI et 44 GB de SRAM ultra-rapide sur une seule puce. La mémoire est directement collée aux cœurs de calcul, réduisant la distance de « transfert » de centimètres à micromètres. Résultat : la vitesse d’inférence est 15 à 20 fois plus rapide que celle du H100 de NVIDIA.

Il faut préciser que NVIDIA ne reste pas inactif. Son architecture Blackwell (B200), la plus récente, offre une performance d’inférence quatre fois supérieure à celle du H100, et est en déploiement massif. Mais Blackwell poursuit un objectif mobile — Cerebras évolue aussi, et de nombreux concurrents émergent sur le marché des puces.

Les 20 milliards de NVIDIA : une reconnaissance derrière la plus grande acquisition de l’histoire

Le 24 décembre 2025, NVIDIA annonce sa plus grande acquisition à ce jour.

Cible : Groq.

Groq est un concurrent direct de Cerebras, spécialisé dans les puces SRAM optimisées pour l’inférence — il s’agit du LPU (Unité de traitement linguistique), qui était à l’époque la puce la plus rapide au monde pour l’inférence lors des évaluations publiques. NVIDIA a dépensé 20 milliards de dollars pour racheter toute la technologie et l’équipe fondatrice de Groq, y compris le fondateur Jonathan Ross et plusieurs ingénieurs de haut niveau issus de l’équipe TPU de Google.

C’est la plus grande acquisition depuis l’achat de Mellanox pour 7 milliards en 2019, triplant presque la taille.

Selon de nombreux analystes, ce que ce montant signifie en réalité est plus important que le chiffre lui-même : NVIDIA considère qu’elle a un déficit structurel en inférence, et que ce déficit vaut 20 milliards de dollars pour être comblé.

Si NVIDIA croyait vraiment en l’invincibilité de ses GPU en inférence, elle n’aurait pas besoin d’acheter Groq. En réalité, ce montant est une commande d’achat technologique d’une valeur de 20 milliards — une reconnaissance que l’architecture SRAM intégrée a un avantage réel en inférence, et que NVIDIA ne peut pas couvrir cette force avec ses produits existants. Elle achète donc la technologie pour combler cette lacune.

Bien sûr, la narration officielle après l’acquisition est différente : « une intégration profonde avec Groq, pour offrir une solution d’inférence plus complète. » La traduction technique : « nous avons reconnu que nos produits ne suffisent pas, alors nous achetons ceux des autres. »

Les 20 milliards d’OpenAI : acheter des puces n’est que la surface, l’investissement en actions est la clé

Revenons maintenant à OpenAI.

En janvier 2026, OpenAI et Cerebras signent un accord d’achat de puissance de calcul sur trois ans pour 10 milliards de dollars — la presse rapportait alors que « OpenAI diversifie ses fournisseurs de puces », avec un ton léger.

Mais, le 17 avril, les détails révélés changent radicalement la nature de l’affaire :

Premièrement, le montant d’achat passe de 10 milliards à 20 milliards, doublant la somme.

Deuxièmement, OpenAI obtiendra des warrants d’achat d’actions de Cerebras, qui, avec l’augmentation de l’achat, pourraient représenter jusqu’à 10 % du capital total de Cerebras.

Troisièmement, OpenAI fournira 1 milliard de dollars pour la construction de centres de données pour Cerebras — autrement dit, OpenAI aide Cerebras à construire ses usines.

Ces trois détails, mis ensemble, dessinent un tout autre tableau : OpenAI ne se contente pas d’acheter des puces, elle incubent un fournisseur.

Ce principe a des précédents clairs dans l’histoire technologique. En 2006, Apple a commencé à collaborer avec Samsung pour des puces personnalisées de la série A, initialement sous forme d’accords d’achat en gros. Mais, à mesure qu’Apple s’est impliqué davantage, et a finalement développé ses propres puces M, le contrôle de la chaîne d’approvisionnement a complètement changé, passant d’Intel et Samsung à Apple elle-même. Ce que fait OpenAI est en partie similaire — mais avec une différence importante : Apple a toujours détenu le droit de conception des puces dès le départ, alors qu’OpenAI reste un acheteur. Cerebras, une fois en bourse, continuera à se développer indépendamment et à servir d’autres clients. La fin de cette trajectoire pourrait ne pas être qu’OpenAI contrôle totalement Cerebras, mais plutôt une création d’un écosystème profondément interdépendant.

D’un côté, en liant Cerebras avec 20 milliards et en investissant en actions, OpenAI assure un approvisionnement continu en puissance de calcul d’inférence hors NVIDIA ; de l’autre, OpenAI collabore avec Broadcom pour développer ses propres ASIC, dont la production est prévue pour fin 2026. Les deux stratégies avancent simultanément vers l’autonomie en puissance de calcul.

Cerebras aujourd’hui en IPO, qu’achetez-vous réellement

Le 17 avril, Cerebras dépose officiellement une demande d’IPO auprès du NASDAQ, avec une valorisation de 35 milliards de dollars, et prévoit de lever 3 milliards de dollars.

Cette valorisation, qui était de 8,1 milliards en septembre 2025, a quadruplé. En février, la société avait déjà levé une nouvelle ronde de financement, valorisée à 23 milliards de dollars, et la valorisation de 35 milliards lors de l’IPO représente une prime de 52 % par rapport à cette dernière.

Les personnes familières avec l’histoire de Cerebras savent que c’est sa deuxième tentative d’introduction en bourse. La première, en 2024, a été annulée parce que son principal client, G42 (fonds souverain d’Abu Dhabi), représentait entre 83 % et 97 % de ses revenus cette année-là, et que l’autorité de contrôle CFIUS a bloqué l’opération pour des raisons de sécurité nationale.

Cette fois, G42 a disparu de la liste des actionnaires, remplacé par OpenAI.

Autrement dit, la concentration de clients de Cerebras n’a pas été fondamentalement résolue — le nom du plus gros client a changé, mais la dépendance à ce client reste. Les investisseurs doivent juger : ce client est-il meilleur ou pire ? Sur le plan de la crédibilité, OpenAI est clairement supérieur à G42 ; mais, stratégiquement, OpenAI est aussi un incubateur de concurrents de Cerebras — ses propres ASIC en développement, une fois mûrs, pourraient représenter une menace réelle pour Cerebras.

Pour être juste, Cerebras cherche aussi à diversifier ses clients, et son prospectus prévoit d’indiquer d’autres sources de revenus, ce qui pourrait améliorer la concentration. Mais, tant que la production de ses propres puces n’est pas encore en marche, la réponse à cette question reste incertaine.

En achetant des actions Cerebras, vous pariez en réalité sur deux choses : que OpenAI continuera à choisir Cerebras comme fournisseur ; et que ses propres ASIC ne seront pas prêts trop tôt. Ces deux scénarios ne sont pas garantis.

Bien sûr, la logique haussière est aussi valable : si la taille du marché de l’inférence augmente comme prévu, même une petite part de Cerebras dans ce marché pourrait représenter un chiffre d’affaires très significatif. La question n’est pas de savoir si Cerebras a une chance, mais si la valorisation de 35 milliards reflète déjà le scénario le plus optimiste.

Les deux investissements de 20 milliards apparaissent de manière symétrique entre fin 2025 et avril 2026.

L’un, d’un des plus grands vendeurs mondiaux de puces AI, achète la technologie d’un concurrent du marché de l’inférence.

L’autre, d’un des plus grands acheteurs mondiaux d’AI, incubent une société challenger de NVIDIA dans ce marché.

Les 20 milliards de NVIDIA sont une démarche défensive — ils comblent à prix élevé une lacune technologique qu’elle ne peut pas combler autrement.

Les 20 milliards d’OpenAI sont une démarche offensive — ils construisent une voie rapide indépendante de NVIDIA, tout en obtenant une participation dans cette voie.

Cette guerre n’a pas de coups de feu, mais le flux de capitaux ne ment jamais. Ces deux investissements montrent clairement : le contrôle de l’infrastructure d’inférence AI est en train d’être disputé. Et ce marché, en 2026, représentera deux tiers de toutes les dépenses en puissance de calcul de l’industrie.

L’IPO de Cerebras est le signal de cette guerre.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler