A mudança da Coinbase para operações lideradas por IA não está a correr muito bem

A Coinbase (Nasdaq: COIN) voltou a mostrar aos traders de criptomoedas como o hardware em nuvem pode ser lento e prejudicar até uma bolsa rápida. Parece que a estratégia de pivô de operações alimentadas por IA da empresa pode ter sido a sua pior jogada até agora.

Na sexta-feira, a empresa afirmou que uma falha de arrefecimento dentro da Amazon Web Services (Nasdaq: AMZN), ajudou a desencadear uma interrupção de várias horas que afetou negociações, acesso à bolsa e atualizações de saldo em toda a sua plataforma.

O problema começou por volta das 23h50 UTC de 7 de maio, quando os monitores internos detectaram uma propagação generalizada de falhas de cotação nos sistemas da empresa.

Nesse momento, vários incidentes de Severidade 1 foram criados pelos engenheiros, e os clientes já estavam impactados em termos de serviços como negociação spot, Coinbase Prime, Internacional, derivativos, Varejo, Avançado e bolsas Institucionais.

Brian Armstrong, CEO da Coinbase, escreveu no X que sua empresa “experimentou uma interrupção” e que tal ocorrência era “nunca aceitável”. Segundo ele, a causa foi “um quarto superaquecer em um centro de dados da AWS devido à falha de múltiplos chillers”.

De acordo com Brian, a empresa garante que todos os seus serviços são projetados de forma que não fiquem fora do ar caso uma zona de disponibilidade da AWS falhe. A maioria dos serviços é estruturada assim, exceto pela bolsa, que usa uma infraestrutura diferente devido às suas altas exigências de latência.

A Coinbase culpa chillers da AWS que falharam, pois os sistemas de cotação começam a quebrar antes da meia-noite UTC

Foi reportado anteriormente pela Cryptopolitan que a Coinbase planeja demitir 700 funcionários, o que constitui aproximadamente 14% da força de trabalho total. E isso é feito com a intenção de substituir processos manuais por IA.

Rob Witoff, responsável pela Plataforma da Coinbase, forneceu detalhes técnicos do ocorrido. Segundo ele, a interrupção durou bastante tempo e afetou “negociação, acesso à bolsa e atualizações de saldo”.

O aviso inicial ocorreu por volta das 23h50 UTC devido a falhas de cotação originadas nos sistemas internos. Uma análise imediata de Severidade 1 foi realizada. Segundo Rob, a causa do problema foi um “evento térmico” em uma pequena porcentagem de racks em uma das instalações da AWS us-east-1.

Tal estrutura para a infraestrutura da bolsa foi útil. Rob disse que a Coinbase mantém sua infraestrutura de bolsa em uma zona de disponibilidade, pois a indústria valoriza a velocidade.

Além disso, a empresa possui uma cópia de backup distribuída dessa infraestrutura de bolsa, em caso de cenários assim. Mas a falha de uma parte da infraestrutura da bolsa no momento não permaneceu dentro de seus limites, prolongando o processo de reparo.

Duas componentes falharam. Houve uma falha no hardware abaixo do motor de correspondência. Portanto, antes de qualquer coisa, foi necessário realizar operações de recuperação e failover.

Além disso, o cluster Kafka distribuído, responsável por compartilhar informações por todos os sistemas da organização, também caiu. Foi necessário recuperar as partições do Kafka em um novo hardware, contendo TiBs de informações.

Engenheiros reconstruíram o quórum e trouxeram os mercados da Coinbase de volta por meio de modos de cancelamento exclusivo e de leilão

O motor de correspondência foi responsável pela maior paralisação nas negociações. Ele processa ordens e mantém os livros de ordens. O sistema funciona em um cluster distribuído e requer quórum antes de escolher um líder e realizar negociações de forma segura.

Como nem todos os nós permaneceram saudáveis devido às restrições no data center durante a interrupção, o quórum não pôde ser alcançado, impedindo atividades de negociação nas bolsas Varejo, Avançado e Institucional.

Rob mencionou que as equipes de suporte em plantão e de engenharia tiveram que executar os procedimentos de recuperação de desastre da empresa, estabelecer o quórum e avaliar a saúde do sistema sob condições difíceis de infraestrutura.

Segundo ele, a equipe teve que desenvolver, testar, implantar e validar uma solução enquanto gerenciava a interrupção mais ampla. O Kafka teria exigido uma recuperação manual extensa, pois sua arquitetura particionada gerencia milhares de terabytes diariamente.

Houve alguns problemas com fluxos de saldo atrasados porque o Kafka estava defasado. Rob afirmou que esses problemas com saldos desapareceram após a replicação se sincronizar. Segundo a Coinbase, nenhum dado foi perdido.

Quando o motor de correspondência voltou a operar, os mercados não foram reativados simultaneamente. Primeiro, a Coinbase mudou todos os produtos para modo de cancelamento exclusivo, verificou os status dos produtos, mudou todos os mercados para modo de leilão e, por fim, habilitou as negociações na Coinbase Exchange.

Além disso, Rob enfatizou que os clientes não devem ficar temporariamente bloqueados de suas contas. A Coinbase garantiu a todos que a empresa fornecerá uma explicação detalhada sobre esse incidente dentro de algumas semanas.

No entanto, Josh Ellithorpe contestou os rumores após ler a postagem de Rob no Twitter. Como ele colocou, “ninguém codificou algo que falhou. Um ‘não engenheiro’ não enviou código de produção e derrubou o motor de negociação. Não foi intencional. Não foi porque a Coinbase deixou de projetar um sistema de failover. Coisas acontecem em escala, não deixe os quarterbacks de poltrona contarem histórias altas para vocês.”

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar