DeepSWE: Tiêu chuẩn đánh giá mới cho AI lập trình, khắc phục vấn đề ô nhiễm dữ liệu và độ phức tạp thực tế

DeepSWE là một tiêu chuẩn đánh giá mới cho các tác nhân lập trình (coding agents), nổi bật với việc loại bỏ tình trạng ô nhiễm dữ liệu và phản ánh chính xác khả năng xử lý các tác vụ phức tạp trong thực tế. Tiêu chuẩn này giúp phân loại rõ ràng hơn hiệu suất của các mô hình AI hàng đầu so với các benchmark hiện tại như SWE-bench Pro.

DeepSWE là một tiêu chuẩn đánh giá kỹ thuật phần mềm dài hạn (long-horizon software engineering benchmark) mới, mang đến bốn bước tiến lớn so với các tiêu chuẩn công khai hiện nay. Được thiết kế để giải quyết các hạn chế của SWE-bench Pro, DeepSWE tập trung vào việc loại bỏ ô nhiễm dữ liệu, tăng cường tính đa dạng và phản ánh chính xác độ phức tạp của công việc lập trình thực tế.

Bốn bước tiến chính của DeepSWE

Không bị ô nhiễm dữ liệu (Contamination-free): Các tác vụ trong DeepSWE được viết từ đầu, không được điều chỉnh từ các commit hoặc pull request (PR) hiện có. Điều này đảm bảo rằng không có mô hình nào đã từng nhìn thấy giải pháp trong quá trình huấn luyện trước (pre-training), giúp đánh giá đúng khả năng suy luận và giải quyết vấn đề mới của AI.

Đa dạng cao: Các tác vụ trải rộng trên 91 kho lưu trữ (repository) với 5 ngôn ngữ lập trình khác nhau. Điều này tạo ra một thước đo toàn diện hơn về khả năng của các tác nhân lập trình khi làm việc với nhiều cơ sở mã (codebase) khác nhau.

Độ phức tạp thực tế: Mặc dù các lệnh (prompt) trong DeepSWE ngắn hơn một nửa so với SWE-bench Pro, nhưng giải pháp yêu cầu lượng mã code nhiều hơn 5,5 lần và số lượng token đầu ra gấp đôi. Điều này mô phỏng lại thực tế nơi các nhà phát triển thường đưa ra yêu cầu ngắn gọn nhưng việc triển khai lại rất phức tạp.

Xác minh đáng tin cậy: Các bộ xác minh (verifiers) được viết thủ công để kiểm tra hành vi của phần mềm thay vì chi tiết triển khai cụ thể. Điều này giúp đảm bảo rằng bất kỳ giải pháp nào đáp ứng được yêu cầu hành vi đều được chấp nhận, tránh việc các mô hình "lách luật" qua các bài kiểm tra yếu.

So sánh với SWE-bench Pro

Các tiêu chuẩn đánh giá hiện tại như SWE-bench Pro đang bộc lộ nhiều hạn chế. SWE-bench Pro có các tác vụ trung bình chỉ yêu cầu khoảng 120 dòng code để giải quyết. Quá trình kiểm toán của nhóm phát triển DeepSWE cho thấy bộ xác minh của SWE-bench Pro đánh giá sai đầu ra của tác nhân ở tỷ lệ khá cao: 8% dương tính giả (false positives) và 24% âm tính giả (false negatives).

Hơn nữa, các phòng thí nghiệm AI hàng đầu ngày càng lo ngại về việc ô nhiễm tiêu chuẩn (benchmark contamination), nơi các mô hình có thể đã "học thuộc lòng" giải pháp từ dữ liệu huấn luyện.

Ngược lại, DeepSWE tạo ra sự so sánh sắc bén hơn giữa các tác nhân lập trình hàng đầu. Trên các tiêu chuẩn công khai, nhiều mô hình có điểm số xếp chồng lên nhau, nhưng trên DeepSWE, chúng tách ra thành các khoảng cách rõ ràng, phù hợp với sự khác biệt mà các nhà phát triển thấy thấy trong quy trình làm việc thực tế.

Bảng xếp hạng các mô hình hàng đầu

Sử dụng mini-swe-agent để đảm bảo tính công bằng, DeepSWE đã công bố bảng xếp hạng các mô hình hàng đầu:

gpt-5.5[xhigh]: 70% ± 4%
gpt-5.4[xhigh]: 56% ± 5%
claude-opus-4.7[max]: 54% ± 5%
claude-sonnet-4.6[high]: 32% ± 4%
gemini-3.5-flash[medium]: 28% ± 4%

Kết quả cho thấy DeepSWE tạo ra sự phân chia rộng hơn giữa các tác nhân biên giới (frontier agents) so với SWE-bench Pro, nơi nhiều mô hình tụ tập trong một dải điểm số hẹp.

Phân tích chất lượng và hành vi của mô hình

Nhóm nghiên cứu cũng thực hiện phân tích định tính để hiểu rõ hơn về cách các mô hình thất bại. Một số điểm đáng chú ý bao gồm:

Claude hay quên các yêu cầu đa phần: Trên DeepSWE, các cấu hình Claude thường bỏ sót các yêu cầu được liệt kê song song (ví dụ: hỗ trợ cả đồng bộ và bất đồng bộ) và thường chỉ triển khai một nhánh rõ ràng nhất.
GPT triển khai đúng những gì được yêu cầu: GPT-5.5 có tỷ lệ bỏ sót hành vi được yêu cầu thấp nhất. Mô hình này đọc lệnh và hợp đồng kho lưu trữ một cách字面 (literal), tạo ra bản vá chính xác theo yêu cầu.
Mô hình mạnh tự kiểm tra công việc của mình: Các mô hình mạnh hơn như Claude Opus 4.7 và GPT-5.4 thường viết các bài kiểm tra mới trong khung kiểm thử của dự án trên hơn 80% lượt chạy, ngay cả khi không được yêu cầu. Ngược lại, các mô hình yếu hơn thường bỏ qua bước này.

Phương pháp luận và Đảm bảo chất lượng

Để đảm bảo độ tin cậy, DeepSWE áp dụng quy trình kiểm soát chất lượng nghiêm ngặt:

Lựa chọn kho lưu trữ: Phải công khai, được bảo trì tích cực, có ít nhất 500 sao trên GitHub và sử dụng giấy phép nguồn mở cho phép.
Xây dựng tác vụ: Mỗi tác vụ bao gồm prompt, bộ xác minh thực thi và giải pháp tham chiếu. Bộ xác minh mở rộng cơ sở hạ tầng kiểm thử của kho lưu trữ để kiểm tra hành vi được yêu cầu thông qua các API công khai.
Đánh giá: Mọi lượt chạy đều sử dụng mini-swe-agent để giữ cố định các biến số xung quanh, đảm bảo bảng xếp hạng phản ánh năng lực của mô hình chứ không phải của công cụ hỗ trợ (scaffolding).

DeepSWE đại diện cho một bước tiến cần thiết trong việc đánh giá AI lập trình, cung cấp một thước đo sạch hơn, khó hơn và thực tế hơn để cộng đồng công nghệ có thể tin tưởng khi lựa chọn các công cụ AI hỗ trợ phát triển phần mềm.

DeepSWE: Tiêu chuẩn đánh giá mới cho AI lập trình, khắc phục vấn đề ô nhiễm dữ liệu và độ phức tạp thực tế

Bốn bước tiến chính của DeepSWE

So sánh với SWE-bench Pro

Bảng xếp hạng các mô hình hàng đầu

Phân tích chất lượng và hành vi của mô hình

Phương pháp luận và Đảm bảo chất lượng

Bài viết liên quan