SIR-Bench: Bộ tiêu chuẩn đánh giá chiều sâu điều tra của AI trong phản hồi sự cố an ninh

SIR-Bench là bộ tiêu chuẩn mới gồm 794 trường hợp thử nghiệm được thiết kế để đánh giá các tác nhân AI tự động phản hồi sự cố an ninh. Khác với các phương pháp cũ, SIR-Bench phân biệt rõ ràng giữa việc điều tra pháp y thực sự và việc chỉ lặp lại cảnh báo, nhờ vào khung mô phỏng OUAT tái hiện các sự cố thực tế trong môi trường đám mây.

Trong bối cảnh an ninh mạng ngày càng phụ thuộc vào trí tuệ nhân tạo (AI) để tự động hóa các quy trình, việc đo lường hiệu quả thực sự của các tác nhân AI là một thách thức lớn. Mới đây, một nhóm các nhà nghiên cứu đã giới thiệu SIR-Bench, một bộ tiêu chuẩn (benchmark) mới được thiết kế để đánh giá chiều sâu điều tra của các tác nhân phản hồi sự cố an ninh tự chủ.

Vấn đề cốt lõi: Điều tra thực sự hay "vẹt" cảnh báo?

Một trong những vấn đề lớn nhất hiện nay là nhiều tác nhân AI chỉ đơn thuần lặp lại thông tin từ các cảnh báo (alert parroting) thay vì thực hiện một cuộc điều tra pháp y số kỹ lưỡng. SIR-Bench được xây dựng để giải quyết vấn đề này bằng cách phân biệt rõ ràng giữa việc đưa ra quyết định sàng lọc (triage) và khả năng khám phá bằng chứng mới thông qua điều tra chủ động.

Bộ tiêu chuẩn này bao gồm 794 trường hợp thử nghiệm, được phát triển từ 129 mẫu sự cố đã được ẩn danh và xác thực bởi các chuyên gia (expert-validated ground truth).

Khung mô phỏng Once Upon A Threat (OUAT)

Để tạo ra dữ liệu kiểm thử chân thực, nhóm tác giả đã phát triển một khung công cụ tên là Once Upon A Threat (OUAT). Khung này cho phép tái hiện lại các mẫu sự cố thực tế trong các môi trường đám mây được kiểm soát.

Nhờ đó, OUAT tạo ra các dữ liệu đo đạc (telemetry) xác thực với các kết quả điều tra có thể đo lường được, giúp mô phỏng chính xác các tình huống mà các chuyên gia an ninh thường phải đối mặt.

Ba chỉ số đánh giá chính

SIR-Bench không chỉ dựa vào kết quả đúng hay sai mà giới thiệu ba chỉ số đánh giá bổ trợ để đo lường năng lực của tác nhân:

Độ chính xác trong phân loại (M1): Đánh giá khả năng đưa ra quyết định sàng lọc ban đầu đúng đắn.
Khám phá phát hiện mới (M2): Đo lường khả năng tìm ra bằng chứng mới mà tác nhân tự phát hiện được trong quá trình điều tra.
Sự phù hợp trong sử dụng công cụ (M3): Xem xét tác nhân có sử dụng các công cụ phân tích một cách hợp lý và hiệu quả hay không.

Điểm nổi bật trong phương pháp đánh giá là việc sử dụng mô hình LLM-as-Judge (LLM đóng vai trò thẩm định) theo tư duy đối kháng. Phương pháp này đảo ngược gánh nặng chứng minh, yêu cầu tác nhân phải cung cấp bằng chứng pháp y cụ thể thì mới được ghi nhận cho cuộc điều tra đó.

Kết quả và ý nghĩa

Khi áp dụng SIR-Bench để đánh giá một tác nhân phản hồi sự cố (SIR agent), các kết quả ban đầu đã thiết lập một đường cơ sở (baseline) quan trọng cho ngành công nghiệp:

Tỷ lệ phát hiện dương tính thật (True Positive) đạt 97,1%.
Tỷ lệ từ chối dương tính giả (False Positive) đạt 73,4%.
Khả năng tìm ra trung bình 5,67 phát hiện then chốt mới cho mỗi vụ việc.

SIR-Bench hứa hẹn sẽ là công cụ hữu ích để các nhà phát triển đo lường và cải thiện các thế hệ tác nhân AI an ninh trong tương lai, đảm bảo chúng không chỉ phát hiện sự cố mà còn thực sự hiểu và điều tra nguyên nhân gốc rễ.

SIR-Bench: Bộ tiêu chuẩn đánh giá chiều sâu điều tra của AI trong phản hồi sự cố an ninh

Vấn đề cốt lõi: Điều tra thực sự hay "vẹt" cảnh báo?

Khung mô phỏng Once Upon A Threat (OUAT)

Ba chỉ số đánh giá chính

Kết quả và ý nghĩa

Bài viết liên quan