Báo cáo tình trạng hoạt động của GitHub: Tổng quan sự cố tháng 3/2026

09 tháng 4, 2026·5 phút đọc

Trong tháng 3, GitHub đã trải qua bốn sự cố kỹ thuật gây suy giảm hiệu suất trên nhiều dịch vụ chính. Các nguyên nhân bao gồm lỗi cơ chế lưu bộ nhớ đệm, cấu hình sai Redis và sự cố xác thực, buộc nền tảng phải áp dụng các biện pháp khắc phục và cải thiện hạ tầng ngay lập tức.

Báo cáo tình trạng hoạt động của GitHub: Tổng quan sự cố tháng 3/2026

Báo cáo tình trạng hoạt động của GitHub: Tổng quan sự cố tháng 3/2026

Trong tháng 3 năm 2026, GitHub đã ghi nhận bốn sự cố kỹ thuật riêng biệt, gây ảnh hưởng đến hiệu suất và tính sẵn sàng của các dịch vụ chính trên nền tảng. Những sự cố này đã làm gián đoạn quy trình làm việc của hàng triệu nhà phát triển, từ việc truy cập trang web, sử dụng API, chạy GitHub Actions cho đến trải nghiệm với GitHub Copilot. Đội ngũ kỹ thuật của GitHub đã nhanh chóng xác định nguyên nhân và triển khai các biện pháp khắc phục cũng như các bước cải thiện dài hạn để ngăn chặn sự tái diễn.

Hạ tầng và bảo mật GitHubHạ tầng và bảo mật GitHub

Dưới đây là chi tiết về các sự cố chính đã diễn ra trong tháng qua.

Sự cố ngày 3 tháng 3: Lỗi bộ nhớ đệm người dùng

Vào ngày 3 tháng 3, GitHub đã trải qua một đợt suy giảm tính sẵn sàng kéo dài 1 giờ 10 phút, ảnh hưởng đến github.com, GitHub API, GitHub Actions, Git operations và GitHub Copilot. Tại thời điểm nghiêm trọng nhất, tỷ lệ yêu cầu thất bại lên tới khoảng 40% đối với github.com và 43% đối với API.

Nguyên nhân sâu xa của sự cố này bắt nguồn từ một lỗi trong quá trình triển khai thay đổi nhằm giảm tải cho cơ chế lưu bộ nhớ đệm (cache) cài đặt người dùng. Cụ thể, một lỗi logic đã khiến bộ nhớ đệm của mọi người dùng hết hạn đồng thời, buộc hệ thống phải tính toán lại và ghi đè dữ liệu hàng loạt. Lượng tải tăng đột biến này đã gây ra độ trễ sao chép (replication delays), lan truyền sang các dịch vụ phụ thuộc.

Để khắc phục, GitHub đã ngay lập tức khôi phục (rollback) bản triển khai bị lỗi. Về lâu dài, đội ngũ kỹ thuật đang bổ sung "công tắc khẩn cấp" (killswitch) và cải thiện giám sát cho cơ chế cache, đồng thời chuyển nó sang một máy chủ chuyên dụng để cô lập rủi ro trong tương lai.

Sự cố ngày 5 tháng 3: GitHub Actions và cấu hình Redis

Ngày 5 tháng 3, dịch vụ GitHub Actions bị suy giảm hiệu suất trong gần 3 giờ. Trong thời gian này, 95% quy trình workflow không thể khởi chạy trong vòng 5 phút, với độ trễ trung bình là 30 phút, và 10% các job thất bại do lỗi hạ tầng.

Vấn đề xuất phát từ việc cập nhật hạ tầng Redis nhằm cải thiện khả năng phục hồi. Tuy nhiên, bản cập nhật đã vô tình đưa một tập hợp các thay đổi cấu hình sai vào bộ cân bằng tải (load balancer) của Redis. Điều này khiến lưu lượng nội bộ bị định tuyến sai đến một máy chủ không đúng, dẫn đến sự cố.

GitHub đã khắc phục bằng cách sửa lại cấu hình load balancer và khôi phục các bản cập nhật gây ra lỗi. Hiện tại, tất cả các thay đổi trong khu vực này đã bị đóng băng cho đến khi công tác sửa đổi hoàn tất. GitHub cũng đang nỗ lực cải thiện tự động hóa để ngăn chặn các cấu hình sai lan truyền trong hạ tầng.

Sự cố ngày 19 & 20 tháng 3: Copilot Coding Agent gặp lỗi xác thực

Dịch vụ Copilot Coding Agent đã bị gián đoạn vào hai ngày liên tiếp là 19 và 20 tháng 3, khiến người dùng không thể khởi tạo phiên làm việc mới hoặc xem các phiên hiện có. Tỷ lệ lỗi trung bình trong sự cố đầu tiên là khoảng 53% và tăng lên tới 99% trong sự cố thứ hai.

Cả hai sự cố đều do cùng một vấn đề về xác thực hệ thống, ngăn dịch vụ kết nối với kho dữ liệu phụ trợ (backing datastore). Đội ngũ kỹ thuật đã khắc phục bằng cách xoay vòng thông tin xác thực (credentials) bị ảnh hưởng để khôi phục kết nối. Sự cố lần thứ hai xảy ra do việc khắc phục lần đầu chưa triệt để.

GitHub đã triển khai giám sát tự động cho các vòng đời của thông tin xác thực và cải thiện quy trình vận hành để giảm thời gian phát hiện và xử lý các vấn đề tương tự.

Sự cố ngày 24 tháng 3: Tích hợp Microsoft Teams bị gián đoạn

Vào ngày 24 tháng 3, dịch vụ tích hợp Microsoft Teams và Teams Copilot Integration đã hoạt động kém hiệu quả, không thể gửi thông báo sự kiện từ GitHub đến Microsoft Teams. Tỷ lệ lỗi trung bình là 37,4%, đỉnh điểm đạt 90,1%. Khoảng 19% tổng số cài đặt tích hợp đã không nhận được thông báo trong khoảng thời gian này.

Nguyên nhân được xác định là do sự cố ngừng hoạt động (outage) tại một trong các dịch vụ phụ thuộc thượng nguồn (upstream dependencies), gây ra lỗi HTTP 500 và đặt lại kết nối cho tích hợp Teams của GitHub. Vấn đề đã được giải quyết khi đối tác thượng nguồn khắc phục xong sự cố của họ. GitHub đang cập nhật tài liệu quan sát và quy trình vận hành (runbooks) để rút ngắn thời gian xử lý đối với các sự cố từ bên thứ ba trong tương lai.

Để theo dõi tình trạng thời gian thực của các dịch vụ, người dùng có thể truy cập trang trạng thái (status page) chính thức của GitHub.

Bài viết được tổng hợp và biên soạn bằng AI từ các nguồn tin tức công nghệ. Nội dung mang tính tham khảo. Xem bài gốc ↗