N-Day-Bench: Thử thách khả năng tìm kiếm lỗ hổng bảo mật thực tế của các mô hình ngôn ngữ lớn (LLM)

N-Day-Bench là một tiêu chuẩn đánh giá mới nhằm kiểm tra khả năng phát hiện các lỗ hổng bảo mật "N-Day" trong các kho mã nguồn thực tế của các mô hình AI tiên tiến. Hệ thống này cập nhật các trường hợp thử nghiệm hàng tháng để đảm bảo tính minh bạch và tránh việc các mô hình chỉ ghi nhớ dữ liệu. Các mô hình được cung cấp một môi trường dòng lệnh để khám phá mã nguồn và báo cáo các lỗ hổng mà không cần nhìn thấy bản vá lỗi.

N-Day-Bench là một tiêu chuẩn đánh giá mới nhằm kiểm tra khả năng phát hiện các lỗ hổng bảo mật "N-Day" (đã biết) trong các kho mã nguồn thực tế của các mô hình AI tiên tiến. Hệ thống này cập nhật các trường hợp thử nghiệm hàng tháng để đảm bảo tính minh bạch và tránh việc các mô hình chỉ ghi nhớ dữ liệu. Các mô hình được cung cấp một môi trường dòng lệnh để khám phá mã nguồn và báo cáo các lỗ hổng mà không cần nhìn thấy bản vá lỗi.

Giới thiệu về N-Day-Bench

Được phát triển bởi Winfunc Research, N-Day-Bench ra đời để giải quyết vấn đề của các tiêu chuẩn đánh giá lỗ hổng tĩnh. Các benchmark truyền thống thường nhanh chóng lỗi thời do các trường hợp thử nghiệm bị rò rỉ vào dữ liệu huấn luyện, khiến điểm số phản ánh khả năng ghi nhớ (memorization) hơn là năng lực thực sự.

N-Day-Bench giải quyết vấn đề này bằng cách làm mới bộ dữ liệu thử nghiệm hàng tháng. Nó kéo các trường hợp mới từ GitHub Security Advisories và kiểm tra kho lưu trữ (repo) tại lần commit cuối cùng trước khi bản vá lỗi được áp dụng. Việc này giúp giữ cho tập dữ liệu thử nghiệm luôn đi trước khả năng ô nhiễm dữ liệu (data contamination).

Quy trình đánh giá ba giai đoạn

Mỗi trường hợp thử nghiệm trong N-Day-Bench chạy ba tác nhân AI riêng biệt để đảm bảo tính khách quan và chặt chẽ:

Curator (Người quản lý): Đọc tư vấn bảo mật và xây dựng đáp án chính xác cho lỗ hổng.
Finder (Người tìm kiếm): Đây là mô hình đang được kiểm tra. Nó được cấp quyền truy cập vào một shell bash ẩn danh (sandboxed) với tối đa 24 bước để khám phá cơ sở mã và viết một báo cáo có cấu trúc.
Judge (Người chấm điểm): Đánh giá bài nộp một cách mù (không biết mô hình nào) dựa trên các tiêu chuẩn đã định.

Điểm đặc biệt là mô hình Finder không bao giờ nhìn thấy bản vá lỗi (patch). Nó chỉ bắt đầu từ các gợi ý về điểm yếu (sink hints) và phải tự truy vết lỗi qua mã nguồn thực tế để tìm ra nguyên nhân gốc rễ.

Tiêu chí lựa chọn và kết quả hiện tại

Để đảm bảo chất lượng và tính đại diện, chỉ các kho mã nguồn có hơn 10.000 sao (stars) trên GitHub mới đủ điều kiện tham gia N-Day-Bench. Một quy trình đa dạng hóa cũng được áp dụng để ngăn chặn bất kỳ kho lưu trữ nào thống trị bộ dữ liệu. Các tư vấn bảo mật mơ hồ, liên quan đến nhiều repo hoặc không thể giải quyết sẽ bị loại bỏ.

Hiện tại, benchmark đang đánh giá các mô hình hàng đầu như GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro, GLM-5.1 và Kimi K2.5. Theo bảng xếp hạng mới nhất, GPT-5.4 đang dẫn đầu với điểm số trung bình là 83,93%, theo sau là GLM-5.1 (80,13%) và Claude Opus 4.6 (79,95%).

Tất cả các dấu vết (traces) của quá trình chạy thử đều được công khai để cộng đồng có thể kiểm chứng và phân tích chi tiết cách các mô hình hoạt động.

N-Day-Bench: Thử thách khả năng tìm kiếm lỗ hổng bảo mật thực tế của các mô hình ngôn ngữ lớn (LLM)

Giới thiệu về N-Day-Bench

Quy trình đánh giá ba giai đoạn

Tiêu chí lựa chọn và kết quả hiện tại

Bài viết liên quan