Coinbase 向 AI 領導運營的轉型進展並不順利

Coinbase(納斯達克股票代碼:COIN)再次向加密貨幣交易者展示了雲端硬體的緩慢如何破壞即使是快速交易所的運作。看起來,該公司以人工智慧為動力的運營轉型策略可能是其迄今為止最糟糕的決策。

週五,該公司表示,亞馬遜網路服務(Nasdaq:AMZN)內部的冷卻失效,幫助引發了一場持續多小時的故障,影響了其平台上的交易、交易所存取和餘額更新。

問題大約在5月7日UTC時間23:50左右開始,當時內部監控系統檢測到公司系統內廣泛出現報價失敗的情況。

此時,工程師已經創建了多個Sev1級別的事件,並且客戶的服務已經受到影響,包括現貨交易、Coinbase Prime、國際、衍生品、零售、高級和機構交易所。

Coinbase的CEO布賴恩·阿姆斯特朗(Brian Armstrong)在X(前Twitter)上寫道,他的公司“遇到了一次故障”,而這種情況“從未被接受”。他表示,這次故障的原因是“由於多台冷卻器失效,AWS數據中心內的房間過熱”。

根據布賴恩的說法,公司確保所有服務都設計成在某個AWS可用區失效時不會下線。大多數服務都是這樣結構化的,除了交易所,因為它需要較高的延遲要求,使用了不同的基礎設施。

Coinbase將報價系統在UTC午夜前崩潰歸咎於AWS冷卻器失效

早前Cryptopolitan報導,Coinbase計劃裁員700人,約佔總員工數的14%,此舉旨在用人工智慧取代手動流程。

Coinbase平台負責人Rob Witoff提供了事件的技術細節。他表示,故障持續時間較長,影響了“交易、交易所存取和餘額更新”。

最初的警告出現在UTC時間23:50左右,源自內部系統的報價失敗。隨即進行了Sev1級別的分析。Rob指出,這次挑戰的原因是在AWS us-east-1某個設施中的少部分機架出現“熱事件”。

這種結構的交易所基礎設施派上用場。Rob表示,Coinbase將其交易所基礎設施維持在一個可用區內,因為行業重視速度。

此外,該公司還在此基礎設施中持有分散的備份副本,以應對類似情況。但當時其中一部分交易所基礎設施的失效並未局限於其範圍,延長了修復過程。

兩個組件失效。一個是匹配引擎下方硬體的故障。因此,首先需要進行恢復和故障轉移操作。

此外,負責在組織內所有系統間共享信息的分散式Kafka集群也崩潰了。這需要在新硬體代理上恢復Kafka分區,涉及數TB的數據。

工程師重建仲裁並通過僅取消模式和拍賣模式讓Coinbase市場恢復

匹配引擎負責最大的交易中斷。匹配引擎處理訂單並維護訂單簿。該系統在分散式集群中運作,需要仲裁以選擇領導者並安全進行交易。

由於在故障期間,並非所有節點都保持健康,導致無法達成仲裁,從而阻止了零售、高級和機構交易所的交易活動。

Rob提到,值班支持和工程團隊不得不執行公司的災難恢復程序,建立仲裁,並在困難的基礎設施條件下評估系統狀況。

他表示,團隊必須在管理更廣泛故障的同時,開發、測試、部署並驗證解決方案。由於Kafka的分區架構每天管理數千TB數據,手動恢復工作量巨大。

由於Kafka落後,餘額流出現延遲問題。Rob表示,這些餘額問題在同步複製後消失。根據Coinbase的說法,沒有數據丟失。

當匹配引擎恢復運行時,市場並未同步重新啟用。首先,Coinbase將所有產品切換到僅取消模式,檢查產品狀態,然後將所有市場切換到拍賣模式,最後在Coinbase交易所啟用交易。

此外,Rob強調,客戶不應暫時被鎖定在帳戶之外。Coinbase向所有人保證,該公司將在幾周內提供此次事件的詳細說明。

然而,Josh Ellithorpe在閱讀Rob的Twitter貼文後駁斥了傳言。他表示,“沒有人在那裡寫出失敗的代碼。一個‘非工程師’沒有推送生產代碼,也沒有搞垮交易引擎。這不是故意的,也不是因為Coinbase沒有設計好故障轉移系統。大規模運作中會出現問題,不要讓沙發評論員告訴你那些荒謬的故事。”

如果你想以更平靜的方式進入DeFi加密世界,沒有通常的炒作,可以從這個免費視頻開始。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆