Coinbase tiết lộ nguyên nhân sự cố lớn: Lỗi làm mát tại AWS khiến giao dịch tê liệt hàng giờ đồng hồ

Coinbase đã công bố báo cáo chi tiết về sự cố ngừng hoạt động vào ngày 7/5/2026, cho thấy cách một lỗi làm mát cục bộ tại trung tâm dữ liệu của AWS đã leo thang thành sự cố gián đoạn diện rộng trên sàn giao dịch tiền điện tử. Điều đáng chú ý là các phụ thuộc kiến trúc trong hệ thống nội bộ, bao gồm động cơ khớp lệnh và hạ tầng nhắn tin, đã làm kéo dài thời gian khắc phục đáng kể.

Coinbase gần đây đã công bố một bản báo cáo chi tiết (postmortem) về sự cố ngừng hoạt động diễn ra vào ngày 7 tháng 5 năm 2026. Bản báo cáo đã làm rõ cách một sự cố làm mát cục bộ bên trong một trung tâm dữ liệu của AWS đã leo thang thành gián đoạn kéo dài nhiều giờ, làm tê liệt gần như toàn bộ hoạt động giao dịch trên sàn giao dịch tiền điện tử này. Mặc dù sự cố ban đầu xuất phát từ một sự cố nhiệt (thermal event) tại AWS trong một vùng sẵn sàng (availability zone) duy nhất, nhưng cuộc điều tra của Coinbase cho thấy các phụ thuộc kiến trúc trong hệ thống nội bộ của họ, bao gồm một động cơ khớp lệnh (matching engine) liên kết chặt chẽ với vùng bị ảnh hưởng và sự cố dây chuyền trong hạ tầng nhắn tin, đã làm kéo dài đáng kể nỗ lực khắc phục.

Diễn biến sự cố

Sự cố bắt đầu khi nhiều đơn vị làm mát bị hỏng đồng thời trong một phòng dữ liệu (data hall) của AWS thuộc khu vực US-East-1. Điều này buộc phải kích hoạt cơ chế tắt nhiệt (thermal shutdown) đối với các rack máy chủ bị ảnh hưởng, khiến các phiên bản EC2 và ổ EBS phải ngừng hoạt động. Trong vài giờ, khách hàng của Coinbase không thể mua, bán, nạp, rút hoặc chuyển tài sản, trong khi các khách hàng tổ chức trải qua sự gián đoạn diện rộng đối với việc định tuyến đơn hàng và các dịch vụ trao đổi. Quá trình khôi phục hoàn toàn đã mất phần lớn ngày hôm sau, với việc giao dịch được khôi phục từng bước thông qua các chế độ hủy đơn và đấu giá trước khi hoạt động bình thường trở lại.

Đánh đổi giữa độ trễ và khả năng phục hồi

Theo Coinbase, yếu tố quan trọng nhất làm chậm quá trình khôi phục nằm ở thiết kế của động cơ khớp lệnh (matching engine) của sàn giao dịch. Để đạt được độ trễ siêu thấp (ultra-low latency) cần thiết cho giao dịch tần suất cao, hệ thống này hoạt động như một cụm máy chủ dựa trên thuật toán Raft nằm trong một Nhóm vị trí cụm (Cluster Placement Group) của AWS. Kiến trúc này cố tình đặt các nút (node) ở cùng một vị trí vật lý để giảm thiểu độ trễ mạng giữa các thành viên đồng thuận.

Tuy nhiên, khi sự cố của AWS khiến ba trong số năm nút của cụm bị ngừng hoạt động, hệ thống đã mất định quorum (quorum) và không còn khả năng xử lý giao dịch. Coinbase thừa nhận rằng mặc dù kiến trúc này tối ưu hóa hiệu suất, nhưng nó thiếu cơ chế tự động để chuyển đổi dự phòng (failover) sang một vùng sẵn sàng khác. Việc khôi phục yêu cầu thay đổi mã khẩn cấp, xây dựng lại cụm thủ công và khôi phục định quorum một cách cẩn thận trước khi giao dịch có thể an toàn tiếp tục. Sự cố đã phơi bày một sự đánh đổi kỹ thuật kinh điển: tối ưu hóa cho độ trễ và hiệu suất đôi khi có thể đánh đổi khả năng phục hồi trong các sự cố hạ tầng hiếm gặp.

Hạ tầng nhắn tin và hiệu ứng dây chuyền

Bản báo cáo sau sự cố của Coinbase cũng chỉ ra một vấn đề riêng biệt liên quan đến hạ tầng luồng sự kiện (event-streaming infrastructure). Các khối lượng công việc Kafka chịu trách nhiệm phân phối dữ liệu vận hành đã bị mắc kẹt trong vùng sẵn sàng bị ảnh hưởng, tạo ra sự tích tụ dữ liệu (backlogs) lớn và làm chậm việc khôi phục dịch vụ ngay cả khi các hệ thống giao dịch cốt lõi đang bắt đầu phục hồi. Các kỹ sư cuối cùng phải di chuyển phân vùng (partition) thủ công và cân bằng lại khối lượng công việc để khôi phục dòng dữ liệu bình thường trên toàn nền tảng.

Sự kết hợp giữa sự cố của động cơ khớp lệnh và sự tích tụ trong nhắn tin đã biến một vấn đề hạ tầng đám mây cục bộ thành sự cố diện rộng trên nền tảng. Coinbase lưu ý rằng nếu chỉ có một trong hai vấn đề xảy ra thì có thể quản lý được, nhưng sự kết hợp của chúng đã tạo ra một quy trình khôi phục phức tạp hơn nhiều so với dự kiến.

Bài học về rủi ro tập trung đám mây

Sự cố này đã khơi dậy lại các thảo luận xung quanh rủi ro tập trung đám mây và thực tế vận hành của việc xây dựng các dịch vụ tài chính quan trọng trên hạ tầng siêu quy mô (hyperscale). Mặc dù các khu vực của AWS được thiết kế xung quanh nhiều vùng sẵn sàng, nhưng sự cố của Coinbase chứng minh rằng các ứng dụng vẫn có thể phát triển các phụ thuộc ẩn đối với các vị trí cụ thể, đặc biệt là khi các yêu cầu về hiệu suất khuyến khích các kiến trúc liên kết chặt chẽ. Cùng một sự cố làm mát của AWS cũng đã ảnh hưởng đến các nền tảng và dịch vụ lớn khác đang hoạt động trong khu vực.

Các quan sát viên trong ngành nhận định rằng sự cố này làm nổi bật một thách thức ngày càng tăng đối với các tổ chức đám mây gốc (cloud-native): đơn giản là triển khai trên hạ tầng của nhà cung cấp đám mây không tự động đảm bảo khả năng phục hồi. Kiến trúc hệ thống, vị trí khối lượng công việc, tự động hóa chuyển đổi dự phòng và các giả định vận hành thường đóng vai trò lớn hơn trong việc xác định tính sẵn sàng trong thực tế so với chính nền tảng đám mây bên dưới.

Trải nghiệm của Coinbase tương tự như các sự cố và báo cáo kỹ thuật gần đây từ các công ty công nghệ quy mô lớn khác. GitHub đã nhấn mạnh tầm quan trọng của việc loại bỏ các giả định hạ tầng ẩn sau một số sự cố sẵn sàng phơi bày các phụ thuộc bất ngờ giữa các hệ thống. Công việc gần đây của Discord trong việc tự động hóa hoạt động ScyllaDB cũng tập trung vào việc giảm độ phức tạp khôi phục và giảm thiểu tác động của sự cố hạ tầng thông qua điều phối và tự động hóa. Trong khi đó, Netflix đã đầu tư mạnh vào kỹ thuật độ bền (resilience engineering) và cô lập khối lượng công việc sau khi phát hiện ra rằng các sự cố hạ tầng thường xuất phát từ sự liên kết kiến trúc tinh tế hơn là các điểm thất bại duy nhất.

Điểm chung xuyên suốt các sự cố này là các hệ thống phân tán hiện đại hiếm khi thất bại chỉ vì một thành phần bị hỏng. Thay vào đó, sự cố ngừng hoạt động xảy ra khi nhiều thất bại có thể quản lý riêng lẻ tương tác theo những cách không lường trước được. Bản báo cáo của Coinbase củng cố bài học này: sự cố làm mát của AWS là chất kích hoạt, nhưng thời lượng và tác động của sự cố cuối cùng được định hình bởi các giả định kiến trúc chưa bao giờ được kiểm tra trong điều kiện thất bại thực tế trước đây.

Để phản hồi, Coinbase đã phác thảo một số nỗ lực khắc phục, bao gồm khả năng khôi phục tự động đa vùng (cross-zone) cho động cơ khớp lệnh, các quy trình khôi phục định quorum được cải thiện, hạ tầng nhắn tin có độ bền cao hơn và mở rộng thử nghiệm thảm họa. Công ty nhấn mạnh rằng mặc dù việc ngăn chặn sự cố vẫn quan trọng, nhưng việc tăng tốc độ khôi phục từ các sự cố không thể tránh khỏi cũng quan trọng không kém.

Coinbase tiết lộ nguyên nhân sự cố lớn: Lỗi làm mát tại AWS khiến giao dịch tê liệt hàng giờ đồng hồ

Diễn biến sự cố

Đánh đổi giữa độ trễ và khả năng phục hồi

Hạ tầng nhắn tin và hiệu ứng dây chuyền

Bài học về rủi ro tập trung đám mây

Bài viết liên quan