N-Day-Bench: Thử thách khả năng tìm kiếm lỗ hổng bảo mật thực tế của các mô hình ngôn ngữ lớn (LLM)
N-Day-Bench là một tiêu chuẩn đánh giá mới nhằm kiểm tra khả năng phát hiện các lỗ hổng bảo mật "N-Day" trong các kho mã nguồn thực tế của các mô hình AI tiên tiến. Hệ thống này cập nhật các trường hợp thử nghiệm hàng tháng để đảm bảo tính minh bạch và tránh việc các mô hình chỉ ghi nhớ dữ liệu. Các mô hình được cung cấp một môi trường dòng lệnh để khám phá mã nguồn và báo cáo các lỗ hổng mà không cần nhìn thấy bản vá lỗi.
N-Day-Bench: Thử thách khả năng tìm kiếm lỗ hổng bảo mật thực tế của các mô hình ngôn ngữ lớn (LLM)
N-Day-Bench là một tiêu chuẩn đánh giá mới nhằm kiểm tra khả năng phát hiện các lỗ hổng bảo mật "N-Day" (đã biết) trong các kho mã nguồn thực tế của các mô hình AI tiên tiến. Hệ thống này cập nhật các trường hợp thử nghiệm hàng tháng để đảm bảo tính minh bạch và tránh việc các mô hình chỉ ghi nhớ dữ liệu. Các mô hình được cung cấp một môi trường dòng lệnh để khám phá mã nguồn và báo cáo các lỗ hổng mà không cần nhìn thấy bản vá lỗi.
Giới thiệu về N-Day-Bench
Được phát triển bởi Winfunc Research, N-Day-Bench ra đời để giải quyết vấn đề của các tiêu chuẩn đánh giá lỗ hổng tĩnh. Các benchmark truyền thống thường nhanh chóng lỗi thời do các trường hợp thử nghiệm bị rò rỉ vào dữ liệu huấn luyện, khiến điểm số phản ánh khả năng ghi nhớ (memorization) hơn là năng lực thực sự.
N-Day-Bench giải quyết vấn đề này bằng cách làm mới bộ dữ liệu thử nghiệm hàng tháng. Nó kéo các trường hợp mới từ GitHub Security Advisories và kiểm tra kho lưu trữ (repo) tại lần commit cuối cùng trước khi bản vá lỗi được áp dụng. Việc này giúp giữ cho tập dữ liệu thử nghiệm luôn đi trước khả năng ô nhiễm dữ liệu (data contamination).
Quy trình đánh giá ba giai đoạn
Mỗi trường hợp thử nghiệm trong N-Day-Bench chạy ba tác nhân AI riêng biệt để đảm bảo tính khách quan và chặt chẽ:
- Curator (Người quản lý): Đọc tư vấn bảo mật và xây dựng đáp án chính xác cho lỗ hổng.
- Finder (Người tìm kiếm): Đây là mô hình đang được kiểm tra. Nó được cấp quyền truy cập vào một shell bash ẩn danh (sandboxed) với tối đa 24 bước để khám phá cơ sở mã và viết một báo cáo có cấu trúc.
- Judge (Người chấm điểm): Đánh giá bài nộp một cách mù (không biết mô hình nào) dựa trên các tiêu chuẩn đã định.
Điểm đặc biệt là mô hình Finder không bao giờ nhìn thấy bản vá lỗi (patch). Nó chỉ bắt đầu từ các gợi ý về điểm yếu (sink hints) và phải tự truy vết lỗi qua mã nguồn thực tế để tìm ra nguyên nhân gốc rễ.
Tiêu chí lựa chọn và kết quả hiện tại
Để đảm bảo chất lượng và tính đại diện, chỉ các kho mã nguồn có hơn 10.000 sao (stars) trên GitHub mới đủ điều kiện tham gia N-Day-Bench. Một quy trình đa dạng hóa cũng được áp dụng để ngăn chặn bất kỳ kho lưu trữ nào thống trị bộ dữ liệu. Các tư vấn bảo mật mơ hồ, liên quan đến nhiều repo hoặc không thể giải quyết sẽ bị loại bỏ.
Hiện tại, benchmark đang đánh giá các mô hình hàng đầu như GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro, GLM-5.1 và Kimi K2.5. Theo bảng xếp hạng mới nhất, GPT-5.4 đang dẫn đầu với điểm số trung bình là 83,93%, theo sau là GLM-5.1 (80,13%) và Claude Opus 4.6 (79,95%).
Tất cả các dấu vết (traces) của quá trình chạy thử đều được công khai để cộng đồng có thể kiểm chứng và phân tích chi tiết cách các mô hình hoạt động.
Bài viết liên quan

Công nghệ
George Orwell đã tiên đoán sự trỗi dậy của "rác thải AI" trong tác phẩm 1984
16 tháng 4, 2026

Phần mềm
Anthropic ra mắt Claude Opus 4.7: Nâng cấp mạnh mẽ cho lập trình nhưng vẫn thua Mythos Preview
16 tháng 4, 2026

Công nghệ
Qwen3.6-35B-A3B: Quyền năng Lập trình Agentic, Nay Đã Mở Cửa Cho Tất Cả
16 tháng 4, 2026
