AWS chính thức phát hành DevOps Agent: Trợ lý AI tự động hóa quy trình xử lý sự cố

AWS đã công bố tính sẵn sàng chung (GA) cho DevOps Agent, một trợ lý AI tạo sinh giúp tự động hóa việc khắc phục sự cố và phân tích triển khai. Công cụ này tích hợp sâu với các công cụ quan sát và quy trình CI/CD, giúp giảm đáng kể thời gian khắc phục sự cố (MTTR) và tăng độ chính xác xác định nguyên nhân gốc rễ.

AWS vừa chính thức phát hành DevOps Agent, một trợ lý được hỗ trợ bởi AI tạo sinh (generative AI) được thiết kế để hỗ trợ các nhà phát triển và kỹ sư vận hành khắc phục sự cố, phân tích các đợt triển khai và tự động hóa các tác vụ vận hành trên môi trường AWS.

AWS DevOps Agent Dashboard

Được giới thiệu dưới dạng bản xem trước tại re:Invent 2025 và được xây dựng trên nền tảng Amazon Bedrock AgentCore, DevOps Agent hoạt động bằng cách học hỏi các mối quan hệ trong ứng dụng và tích hợp với các công cụ quan sát, tài liệu vận hành (runbooks), kho mã nguồn và các pipeline CI/CD. Agent này tương quan dữ liệu遥测 (telemetry), mã và dữ liệu triển khai để tự động phân loại sự cố, đẩy nhanh tốc độ giải quyết và xác định các mẫu trong các sự cố trong quá khứ để đề xuất các cải tiến giúp ngăn ngừa sự cố trong tương lai.

Một đồng đội vận hành tự chủ

Madhu Balaji, kiến trúc sư giải pháp cấp cao tại AWS, chia sẻ rằng khi một kỹ sư SRE phải thức dậy lúc 2 giờ sáng để xử lý trang báo động, họ thường phải thủ công đối chiếu dữ liệu từ nhiều nguồn khác nhau, truy xuất các phụ thuộc giữa các dịch vụ và đưa ra các giả thuyết — một quy trình thường mất hàng giờ đồng hồ. Khi hệ thống ngày càng phức tạp, nhu cầu về một đồng đội vận hành sử dụng AI — hay còn gọi là SRE agent — trở nên rõ ràng hơn bao giờ hết.

DevOps Agent không chỉ là một công cụ hỏi đáp (Q&A) thụ động, mà là một đồng đội tự chủ. Khi một sự cố được kích hoạt qua báo động CloudWatch, cảnh báo PagerDuty, sự cố Dynatrace, phiếu ServiceNow hoặc bất kỳ nguồn sự kiện nào khác được cấu hình qua webhook, agent sẽ bắt đầu điều tra ngay lập tức mà không cần sự nhắc nhở từ con người.

Các cải tiến trong phiên bản chính thức

Bản phát hành tính sẵn sàng chung (GA) mang đến một số cải tiến quan trọng, bao gồm khả năng điều tra các ứng dụng chạy trên môi trường Azure và on-premises (trực tiếp), hỗ trợ các kỹ năng agent tùy chỉnh để mở rộng khả năng, cũng như các biểu đồ và báo cáo tùy chỉnh.

Ngoài ra, khả năng mở rộng thông qua MCP và các tích hợp sẵn có với CloudWatch, Datadog, Dynatrace, New Relic, Splunk, Grafana, GitHub, GitLab và Azure DevOps đảm bảo rằng agent có thể thu thập tín hiệu từ bất kỳ nơi nào mà dữ liệu vận hành của đội nhóm đang lưu trữ.

Hiệu suất và tích hợp

Theo các con số sơ bộ từ AWS, DevOps Agent có thể giúp giảm tới 75% thời gian khắc phục sự cố trung bình (MTTR) và đạt 94% độ chính xác trong việc xác định nguyên nhân gốc rễ trong giai đoạn thử nghiệm. Sebastian Korfmann, đồng sáng tạo Agentic Hamburg, nhận định rằng các tích hợp với Datadog, Grafana, Splunk, PagerDuty, ServiceNow và các nền tảng khác là rất mạnh mẽ.

Corey Quinn, nhà kinh tế đám mây chính tại The Duckbill Group, đã nhận xét hài hước rằng: "Bạn đang trả tiền cho quyền lợi để AI làm những việc mà kỹ sư trực ca lúc 2 giờ sáng của bạn làm, ngoại trừ việc nó sẽ không thụ động khiếu nại cả đội trên Slack sau đó. MTTR giảm từ hàng giờ xuống còn vài phút; hóa đơn thì tăng từ vài phút lên hàng giờ."

Mô hình giá và khả dụng

Với phiên bản chính thức, dịch vụ này không còn miễn phí. Giá cả được tính dựa trên thời gian tích lũy mà agent dành cho các tác vụ vận hành, tính phí theo từng giây. Khách hàng sử dụng AWS Support sẽ nhận được các tín dụng tín dụng hàng tháng cho DevOps Agent dựa trên chi phí hỗ trợ của tháng trước, với tỷ lệ phần trăm tín dụng có sẵn dựa trên mức độ hỗ trợ.

Hiện tại, dịch vụ đã có mặt tại 6 khu vực, bao gồm Bắc Virginia, Ireland và Frankfurt.

Trong một thông báo riêng, AWS cũng đã đưa tính năng kiểm thử xâm nhập theo yêu cầu (on-demand penetration testing) của Security Agent sang trạng thái phát hành chính thức. Agent sử dụng AI này liên tục phân tích thiết kế, mã và hành vi thời gian chạy của ứng dụng để tự động thực hiện kiểm thử xâm nhập và xác định các lỗ hổng bảo mật có thể bị khai thác.