Các tác nhân AI đang âm thầm tạo ra sự cố hỗn loạn mà doanh nghiệp chưa theo dõi được

Các nhóm kỹ thuật đang bỏ sót một loại sự cố nghiêm trọng do các tác nhân AI tạo ra, khi các hành động tự động đúng về mặt kỹ thuật lại dẫn đến sự sụp đổ hạ tầng do thiếu bối cảnh đầy đủ. Bài viết phân tích mối liên hệ giữa AI và kỹ thuật hỗn loạn (chaos engineering), đề xuất mô hình "ngân sách khả năng phục hồi" để quản lý rủi ro và nhấn mạnh sự cần thiết của sự can thiệp của con người trong việc ra quyết định quan trọng.

Có một loại sự cố trong môi trường sản xuất mà các đội ngũ kỹ thuật hiện chưa theo dõi, đơn giản vì nó không khớp với bất kỳ mẫu báo cáo sự cố (postmortem) nào hiện có.

Tác nhân khởi tạo một hành động. Hành động đó về mặt kỹ thuật là chính xác dựa trên ngữ cảnh của tác nhân. Nhưng ngữ cảnh đó lại không đầy đủ. Hạ tầng liên tục bị sụp đổ theo hiệu ứng dây chuyền. Và, đến thời điểm xem xét sự cố, ba đội ngũ khác nhau đang tranh cãi xem đây là lỗi của tác nhân hay lỗi của hạ tầng, bởi vì các khuôn kh tư duy cho hai vấn đề này chưa bao giờ được kết nối với nhau.

Quy mô của rủi ro này không còn mang tính lý thuyết. Bảy mươi chín phần trăm các tổ chức hiện nay có một số hình thức tác nhân AI trong môi trường sản xuất, với 96% lên kế hoạch mở rộng. Gartner dự đoán rằng 33% phần mềm doanh nghiệp sẽ bao gồm AI dạng tác nhân (agentic AI) vào năm 2028, nhưng đồng thời cảnh báo rằng 40% trong số các dự án đó sẽ bị hủy bỏ do các biện pháp kiểm soát rủi ro kém.

Cả hai số liệu thống kê đều không ghi nhận chế độ thất bại đang diễn ra giữa hai con số đó: Các tác nhân đang hoạt động, không bị hủy bỏ, và âm thầm tạo ra các sự kiện hạ tầng mà chưa ai phân loại là rủi ro.

Tôi đã dành sáu năm để xây dựng các hệ thống tự động hóa hạ tầng ở quy mô doanh nghiệp, trước tiên tại Cisco (dẫn dắt các nền tảng vòng đời dựa trên AI được triển khai tại hơn 20 khách hàng doanh nghiệp toàn cầu), sau đó tại Splunk (thiết kế các quy trình công việc phân tích nguyên nhân gốc rễ và quan sát được hỗ trợ bởi AI trên hàng ngàn môi trường doanh nghiệp).

Trong thời gian đó, tôi cũng đã nộp một bằng sáng chế về phương pháp luận kỹ thuật hỗn loạn dựa trên ý định (intent-based chaos engineering). Và qua tất cả những điều đó, tôi liên tục thấy các tổ chức mắc cùng một lỗi cấu trúc: Coi các tác nhân tự trị và kỹ thuật hỗn loạn là hai ngành tách biệt. Chúng không như vậy. Đó là cùng một ngành, và khoảng trống giữa chúng đang âm thầm tạo ra làn sóng các sự cố sản xuất lớn tiếp theo.

Quyết định phán xét mà các tác nhân bỏ qua

Để hiểu tại sao điều này quan trọng, bạn cần hiểu những gì thực sự bị hỏng trong cách các doanh nghiệp quản lý hỗn loạn ngày nay, trước khi thêm các tác nhân vào bức tranh.

Hầu hết các tổ chức kỹ thuật trưởng thành都已 đầu tư vào các chương trình kỹ thuật hỗn loạn. Các ngày tập luyện (Game days), các biện pháp kiểm soát phạm vi ảnh hưởng (blast radius), các thí nghiệm được cổng SLO giới hạn. Khi một kỹ sư con người khởi tạo một thí nghiệm hỗn loạn, chuỗi sự kiện có một thuộc tính quan trọng: Một con người đang đưa ra một quyết định phán xét về việc hệ thống hiện có dung lượng để hấp thụ sự xáo trộn đó hay không. Họ kiểm tra các bảng điều khiển. Họ xem xét tỷ lệ tiêu hao ngân sách lỗi (error budget burn rate). Họ đánh giá xem các phụ thuộc có ổn định không. Nó không hoàn hảo và thường mang tính trực giác, nhưng ít nhất có một người trong vòng lặp đang đặt đúng câu hỏi trước khi bất kỳ thứ gì chạy.

Khi bạn đưa vào một tác nhân khắc phục tự trị, một tác nhân có thể khởi động lại dịch vụ, định tuyến lại lưu lượng, mở rộng quy mô tài nguyên hoặc sửa đổi cấu hình để phản hồi các bất thường được phát hiện, câu hỏi đó biến mất. Tác nhân nhìn thấy một bất thường. Tác nhân thực hiện một hành động. Hành động đó là một sự kiện hỗn loạn. Không có kiểm tra tỷ lệ tiêu hao SLO. Không có tính toán phạm vi ảnh hưởng. Không có phán xét của con người về việc ngay bây giờ có phải là thời điểm thích hợp để thêm áp lực vào một hệ thống có thể đang chịu áp lực từ ba hướng khác hay không.

Đây là chế độ thất bại cụ thể mà tôi đã quan sát thấy diễn ra. Một tác nhân khắc phục phát hiện độ trễ tăng cao trên một vi dịch vụ và phản ứng bằng cách khởi động lại cụm dịch vụ; một hành động hợp lý dựa trên dữ liệu đào tạo và tầm nhìn hẹp của nó về sự cố. Điều mà tác nhân không biết: Ba dịch vụ khác đang ở giữa việc xử lý lưu lượng truy cập đỉnh điểm. Kho kết nối dùng chung (shared connection pool) đã ở mức sử dụng 87%. Cơ sở dữ liệu phụ thuộc đang chạy quá trình xây dựng lại chỉ mục (index rebuild) ở nền. Việc khởi động lại kích hoạt hiệu ứng bầy đàn (thundering herd) chống lại dịch vụ đang hồi phục.

Những gì bắt đầu như một độ trễ tăng đột biến mà tác nhân được thiết kế để sửa chữa đã trở thành sự sụp đổ dây chuyền mà tác nhân không được thiết kế để mô hình hóa. Phạm vi ảnh hưởng của hành động tác nhân đó không phải là việc khởi động lại dịch vụ. Nó là mọi thứ hạ lưu của việc khởi động lại đó, trong một trạng thái hệ thống mà tác nhân không có bức tranh hoàn chỉnh.

Chương trình kỹ thuật hỗn loạn của ai cũng không kiểm tra cho sự kết hợp cụ thể đó. Tính toán phạm vi ảnh hưởng của ai cũng không bao gồm tác nhân như một tác nhân. Bởi vì chúng ta không nghĩ về các tác nhân như những người tiêm hỗn loạn. Chúng ta nên như vậy.

Theo Cơ sở dữ liệu Sự cố AI (AI Incidents Database), các sự cố liên quan đến AI được báo cáo đã tăng 21% từ năm 2024 đến năm 2025. Con số đó hầu như chắc chắn thấp hơn thực tế tiếp xúc, bởi vì hầu hết các tổ chức không có phân loại sự cố nào ghi nhận hành động của tác nhân tự trị là nguyên nhân khởi đầu của một sự sụp đổ dây chuyền. Sự cố được ghi lại là việc khởi động lại dịch vụ, sự bão hòa của kho kết nối, hoặc một sự kiện độ trễ. Tác nhân vô hình trong báo cáo hậu kiểm.

Khả năng hấp thụ là một tài nguyên; hầu hết các hệ thống không coi nó như vậy

Vấn đề cơ bản là các hệ thống doanh nghiệp không có ngôn ngữ chung cho khả năng hấp thụ (absorb capacity) — ước tính thời gian thực về lượng áp lực bổ sung mà một hệ thống có thể chịu đựng trước khi vi phạm các cam kết SLO của mình. Các chương trình kỹ thuật hỗn loạn quản lý nó ngầm định, thông qua phán xét của con người và các ngưỡng tĩnh kích hoạt sau khi giới hạn đã bị vượt qua. Các tác nhân hoàn toàn không quản lý nó.

Thông qua các nghiên cứu sơ cấp có cấu trúc với các nhà thực hành kỹ thuật độ tin cậy trang web (SRE) và kỹ sư nền tảng tại các tổ chức bao gồm Intuit và GPTZero, tôi đã phát triển một mô hình ngân sách khả năng phục hồi. Ý tưởng cốt lõi là coi khả năng hấp thụ như một tài nguyên có thể tiêu thụ được tính toán lại liên tục, thay vì một ngưỡng tĩnh mà bạn cố gắng không vượt qua.

Một ngân sách khả năng phục hồi dựa trên bốn lớp tín hiệu trực tiếp.

Tỷ lệ tiêu hao SLO là đầu vào chính, bởi vì nó mã hóa trực tiếp khoảng cách giữa hành vi hệ thống hiện tại và cam kết thực sự quan trọng. Nếu một hệ thống đang tiêu thụ ngân sách lỗi hàng tháng với tỷ lệ gấp năm lần tỷ lệ mong đợi, ngân sách khả năng phục hồi sẽ gần bằng零 bất kể việc sử dụng CPU trông như thế nào.
Xu hướng độ trễ P99 quan trọng hơn độ trễ tuyệt đối, bởi vì một dịch vụ có xu hướng tăng trong bốn mươi phút nói với bạn một điều khác nhau so với một dịch vụ đã ổn định ở cùng một giá trị tuyệt đối.
Trạng thái bão hòa phụ thuộc là tín hiệu thường bị bỏ sót nhất; một thí nghiệm hỗn loạn hoặc một hành động tác nhân giả định rằng một kho kết nối dùng chung sẵn sàng sử dụng trong khi nó đang ngồi ở mức 87% sẽ tạo ra các chế độ thất bại mà không ai thiết kế cho.
Các tín hiệu hành vi ứng dụng, tỷ lệ hoàn thành phiên, thay đổi mẫu gọi API, sự suy giảm chuyển đổi, và bề mặt hệ thống bị căng thẳng sớm hơn các chỉ số hạ tầng, bởi vì người dùng cảm nhận sự suy giảm trước khi Prometheus báo cáo nó.

Điều làm cho nó trở thành một ngân sách thay vì một ngưỡng là nó có thể tiêu thụ được. Mọi thí nghiệm hỗn loạn đều rút từ dung lượng có sẵn. Mọi hành động của tác nhân đều rút từ nó. Trong các tổ chức đa đội ngũ where nhiều thí nghiệm và nhiều tác nhân có thể hoạt động đồng thời, ngân sách được chia sẻ.

Nếu không có sổ cái chung về việc tiêu thụ, hai đội ngũ chạy thí nghiệm chống lại các phụ thuộc chồng chéo sẽ tạo ra phạm vi ảnh hưởng kết hợp mà không đội ngũ nào lên kế hoạch. Thêm các tác nhân tự trị hoạt động hoàn toàn bên ngoài sổ cái, và việc kế toán sẽ sụp đổ.

Mô hình ngôn ngữ giúp ích ở đâu, và thất bại chính xác ở đâu

Một số tổ chức kỹ thuật hiện đang chạy các thí nghiệm sử dụng các mô hình ngôn ngữ lớn (LLMs) để tạo ra các giả thuyết hỗn loạn từ đồ thị phụ thuộc và kho tàng báo cáo sự cố. Kết quả mang tính hữu ích về hướng đi. Các mô hình ngôn ngữ làm nổi bật các chế độ thất bại hợp lý mà các SRE có kinh nghiệm nhận thấy đáng để kiểm tra, và chúng tạo ra các giả thuyết nhanh hơn các quy trình thủ công, đặc biệt khi làm việc từ lịch sử báo cáo sự cố phong phú.

Giới hạn là sự cũ kỹ của đồ thị phụ thuộc, và đó là một giới hạn cứng. Một giả thuyết được tạo ra từ một đồ thị không phản ánh việc trích xuất dịch vụ của tháng trước, hoặc một phụ thuộc thư viện dùng chung được thêm hai kỳ phát triển trước, sẽ đề xuất một thí nghiệm với các giả định sai về phạm vi ảnh hưởng. Vấn đề không phải là mô hình mắc sai lầm, mà là mô hình không biết rằng mình đang sai lầm. Nó sẽ tự tin sai lầm về một ranh giới hệ thống không còn tồn tại, và trong kỹ thuật hỗn loạn, sự tự tin sai lầm trong môi trường sản xuất có nghĩa là một thời gian ngừng hoạt động không theo kế hoạch.

Phòng thí nghiệm Nghiên cứu AI Đáng tin cậy (Trustworthy AI Research Lab) của Stanford đã phát hiện ra rằng các hàng rào ở cấp độ mô hình một mình là không đủ: Các cuộc tấn công tinh chỉnh đã vượt qua các mô hình hàng đầu trong đa số các trường hợp được kiểm tra. Hệ quả cho việc tạo giả thuyết hỗn loạn là trực tiếp, một mô hình không thể giữ vững ranh giới an toàn của riêng mình không thể được tin cậy để mô hình hóa chính xác phạm vi ảnh hưởng của một hành động mà nó chưa từng thấy trong một đồ thị phụ thuộc mà nó chưa xác minh.

Khi việc tạo giả thuyết thay vào đó được rút ra từ kho tàng báo cáo sự cố, vấn đề sự cũ kỹ giảm đi đáng kể. Các báo cáo sự cố mô tả các thất bại thực sự xảy ra trong hệ thống tại một thời điểm cụ thể. Tín hiệu được xác thực thực tế bởi thực tế sản xuất. Đây là ứng dụng AI ngắn hạn khả thi trong không gian này, và nó thực sự hữu ích cho các tổ chức có các thực hành tài liệu hóa sự cố trưởng thành.

Những gì AI không thể làm, và không nên được yêu cầu làm, là đưa ra quyết định thực thi khi các tín hiệu mơ hồ. Phán xét đó yêu cầu nhận thức về những thứ sống hoàn toàn bên ngoài bất kỳ hệ thống giám sát nào: Các triển khai đang chờ xử lý đã thay đổi cảnh quan phụ thuộc một giờ trước, mức độ nhân sự trực vào cuối tuần lễ, một cam kết của khách hàng làm cho bất kỳ rủi ro bổ sung nào là không thể chấp nhận được cho đến thứ Hai.

Một mô hình không có quyền truy cập vào bối cảnh đó không nên đưa ra lời kêu gọi đó. Đây không phải là một hạn chế tạm thời chờ đợi một mô hình có khả năng hơn. Nó là một ràng buộc cấu trúc của những gì khả năng quan sát máy móc có thể đại diện, và việc xây dựng một kiến trúc tác nhân bỏ qua nó là xây dựng một thứ sẽ cuối cùng đưa ra một quyết định mang tính hệ quả với thông tin không đầy đủ — và không có con người trong vòng lặp để bắt nó.

Điều này có nghĩa gì cho cách doanh nghiệp quản trị các tác nhân trong môi trường sản xuất

Hàm ý quản trị rất dễ mô tả nhưng khó thực hiện hơn âm thanh. Mọi hành động của tác nhân tự trị chạm vào hạ tầng cần phải đăng ký chống lại cùng một lớp tín hiệu trực tiếp điều khiển các thí nghiệm hỗn loạn. Cùng tỷ lệ tiêu hao SLO, xu hướng độ trễ, trạng thái bão hòa phụ thuộc mà một kỹ sư con người sẽ kiểm tra trước khi khởi tạo một thí nghiệm nên đóng cổng những gì tác nhân được phép làm và khi nào. Nếu ngân sách khả năng phục hồi thấp hơn một sàn được xác định, tác nhân sẽ chờ hoặc thăng cấp. Nó không hành động.

Các hành động của tác nhân cũng cần được mô hình hóa như các thí nghiệm, không chỉ được ghi lại như các sự kiện. Khi một tác nhân khởi động lại một dịch vụ, câu hỏi không chỉ là việc khởi động lại có hoàn thành thành công hay không. Đó là liệu phạm vi ảnh hưởng của hành động đó có tỷ lệ với dung lượng hấp thụ có sẵn hay không, và các hiệu ứng lan truyền nào nó tạo ra trên các phụ thuộc. Đó là dữ liệu kỹ thuật hỗn loạn. Nó thuộc về trong mô hình ngân sách, cung cấp thông tin cho quyết định tiếp theo mà tác nhân hoặc đội ngũ cần đưa ra.

Và khi các tín hiệu thực sự mơ hồ, khi điểm ngân sách không rõ ràng, khi một triển khai gần đây đã thay đổi cấu trúc theo những cách mà cửa sổ ngữ cảnh của tác nhân không bắt kịp, khi các trạng thái phụ thuộc đang thay đổi, quyết định thực thi cần phải chuyển sang con người. Không phải như một hạn chế vĩnh viễn trên tính tự chủ của tác nhân, mà là một yêu cầu kỹ thuật khó cho trạng thái hiện tại của công nghệ.

Một cầu chì chuyển các trường hợp mơ hồ cho con người không phải là một điểm yếu trong kiến trúc tác nhân. Nó là thứ làm cho kiến trúc đủ đáng tin cậy để thực sự chạy trong môi trường sản xuất. Xác minh dựa trên ý định chính thức hóa chính xác điều này: Xác định hành vi tác nhân đúng trông như thế nào trước khi triển khai, sau đó liên tục thăm dò xem các ranh giới đó có giữ vững trong các điều kiện hệ thống trực tiếp hay không.

Các tổ chức vận hành các tác nhân tự trị đáng tin cậy ở quy mô lớn không phải là những người có các mô hình tinh vi nhất. Họ là những người đã hiểu, trước khi something đi sai nghiêm trọng, rằng mọi hành động của tác nhân là một sự kiện hỗn loạn và xây dựng lớp quản trị của họ tương ứng.

Bước thực tế đầu tiên là kém sang: Kiểm toán mọi tác nhân tự chủ hiện đang chạm vào hạ tầng, ánh xạ bề mặt hành động của nó chống lại các tín hiệu tỷ lệ tiêu hao SLO trực tiếp của bạn, và xác định các điều kiện sàn rõ ràng dưới đó tác nhân được yêu cầu chờ hoặc thăng cấp. Kiểm toán đó sẽ làm nổi bật các tác nhân hoạt động hoàn toàn ngoài kế toán khả năng phục hồi của bạn.

Hầu hết các tổ chức chạy các tác nhân ở quy mô lớn ngày nay có một vài tác nhân như vậy. Hãy tìm chúng trước khi sản xuất tìm thấy.

Sayali Patil đã dành hơn 6 năm tại Cisco Systems và Splunk xây dựng các hệ thống độ tin cậy và tự động hóa giúp giữ cho hạ tầng AI doanh nghiệp chạy ở quy mô lớn.