Coinbase promet un rapport complet sur la cause racine après un incident majeur sur la plateforme d'échange

Les défaillances de l’infrastructure AWS et les problèmes de récupération de Kafka ont temporairement interrompu le trading sur Coinbase.

Coinbase a subi une panne majeure de service le 7 mai qui a perturbé le trading, l’accès à la plateforme d’échange et la mise à jour des soldes clients sur plusieurs plateformes. Les problèmes ont affecté les marchés au comptant, les dérivés, les services Prime et les opérations de trading internationales pendant plusieurs heures. Les ingénieurs ont ensuite identifié le problème comme étant une défaillance du système de refroidissement à l’intérieur d’un centre de données AWS aux États-Unis. Coinbase a déclaré que les fonds des clients sont restés en sécurité et qu’aucune donnée n’a été perdue lors de l’incident.

Les problèmes de récupération de Kafka aggravent la panne de Coinbase

Coinbase a révélé que les systèmes de surveillance ont détecté pour la première fois des défaillances en cascade des cotations vers 23h50 UTC. Plusieurs incidents de gravité Sev1 ont suivi peu après, ce qui a conduit à des procédures d’intervention d’urgence par les équipes d’ingénierie. Les systèmes internes liés à l’infrastructure principale de l’échange ont commencé à échouer alors que la température augmentait à l’intérieur d’un sous-ensemble de racks hébergés dans AWS us-east-1.

Hier, @coinbase a connu une interruption de service de plusieurs heures affectant le trading, l’accès à la plateforme et la mise à jour des soldes. Voici notre première analyse de Coinbase engineering sur ce qui s’est passé, comment nous avons récupéré, et ce que nous traitons.

Vers 23h50 UTC le 07-05-2026, notre…

— rob (@rwitoff) 8 mai 2026

Selon les ingénieurs de Coinbase, des défaillances matérielles ont touché les systèmes connectés au moteur de correspondance de l’échange. Ce moteur traite les ordres et maintient les carnets d’ordres sur les marchés Coinbase. Les problèmes d’infrastructure à l’intérieur de l’installation affectée ont laissé seulement une partie des nœuds opérationnels. En conséquence, le cluster n’a pas réussi à atteindre le quorum, bloquant temporairement le trading pour les utilisateurs particuliers et institutionnels.

Les ingénieurs ont également rencontré des complications impliquant des clusters Kafka distribués utilisés pour la messagerie interne. Coinbase a indiqué que ces clusters traitent plusieurs téraoctets de données quotidiennement et ont été conçus pour rester opérationnels lors d’une panne de centre de données. Les garanties de récupération ont échoué lors de l’incident, obligeant les équipes à restaurer manuellement les partitions sur des brokers matériels de remplacement.

Une défaillance matérielle dédiée ralentit le processus de récupération

Les clients ont constaté un retard dans la mise à jour de leurs soldes pendant que la réplication Kafka se rétablissait. Coinbase a indiqué que les soldes seraient automatiquement synchronisés une fois que les systèmes seraient à jour. Des représentants de la société ont ajouté qu’aucune donnée client ou transactionnelle n’a disparu pendant la panne.

Des outils de récupération automatisés ont déchargé les charges de travail d’environ 10 clusters Kubernetes liés à la zone affectée. La plupart des services internes sont revenus en environ 30 minutes après que les ingénieurs ont isolé le problème.

La récupération a pris plus de temps pour les systèmes directement liés au moteur de correspondance de l’échange et à l’infrastructure Kafka, car tous deux dépendaient de configurations matérielles et de stockage dédiées.

Après avoir stabilisé l’environnement, Coinbase a rouvert les marchés par étapes. Le trading a d’abord été mis en mode d’annulation uniquement avant que les équipes n’auditent l’état des produits. Les marchés sont ensuite passés en mode enchères avant la reprise complète du trading sur l’échange.

Coinbase affirme qu’aucune donnée n’a été perdue lors de la panne de plusieurs heures de la plateforme

Coinbase a reconnu que certaines parties de son architecture concentraient l’infrastructure critique de l’échange dans une seule zone de disponibilité. Les ingénieurs ont indiqué que des systèmes de secours étaient en place pour les scénarios de basculement, mais que les mesures d’isolation ont échoué lors de l’événement. Cela a prolongé la durée et étendu la portée de la panne au-delà des limites prévues.

Les dirigeants de l’entreprise ont salué la coordination interne durant le processus de récupération. Selon eux, les équipes d’ingénierie et d’astreinte ont suivi les procédures établies de récupération en cas de catastrophe tout en testant et validant les correctifs dans des conditions d’infrastructure limitées.

Coinbase s’est excusé auprès des clients qui ont temporairement perdu l’accès à leurs comptes et services de trading. Les dirigeants ont indiqué qu’une analyse complète des causes profondes sera publiée dans les semaines à venir, accompagnée d’améliorations de la fiabilité prévues pour éviter de futures défaillances similaires.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler