Tự chưng cất đơn giản giúp cải thiện đáng kể khả năng viết mã nguồn của LLM

Một nghiên cứu mới từ arXiv đã chứng minh rằng các mô hình ngôn ngữ lớn (LLM) có thể tự nâng cao khả năng lập trình của mình thông qua phương pháp \"Tự chưng cất đơn giản\" (SSD), mà không cần đến bộ xác minh hay học tăng cường. Phương pháp này đã giúp cải thiện tỷ lệ pass@1 của mô hình Qwen3-30B từ 42,4% lên 55,3% trên LiveCodeBench v6, đặc biệt hiệu quả với các bài toán khó.

Một nhóm các nhà nghiên cứu đã công bố một phương pháp mới có tên là Simple Self-Distillation (SSD) - hay Tự chưng cất đơn giản, hứa hẹn thay đổi cách chúng ta tối ưu hóa các mô hình ngôn ngữ lớn (LLM) cho nhiệm vụ viết code. Điểm đặc biệt của phương pháp này nằm ở sự đơn giản: nó không yêu cầu một mô hình giáo viên, bộ xác minh hay các quy trình học tăng cường phức tạp.

LLM có thể tự hoàn thiện không?

Câu hỏi đặt ra là: Một LLM có thể cải thiện khả năng tạo mã chỉ bằng cách sử dụng chính các đầu ra thô của mình không? Câu trả lời là có, thông qua quy trình SSD. Thay vì dựa vào dữ liệu bên ngoài hay phản hồi của con người, phương pháp này lấy mẫu các giải pháp từ chính mô hình đó với các cấu hình nhiệt độ và cắt ngắn cụ thể, sau đó tiến hành tinh chỉnh (fine-tune) mô hình trên chính những mẫu dữ liệu đó.

Hiệu suất ấn tượng trên benchmark

Kết quả thử nghiệm đã cho thấy sự cải thiện vượt bậc. Trên bộ dữ liệu chuẩn LiveCodeBench v6, SSD đã nâng tỷ lệ pass@1 của mô hình Qwen3-30B-Instruct từ 42,4% lên 55,3%. Đặc biệt, mức tăng trưởng này tập trung chủ yếu vào các bài toán khó hơn, nơi các mô hình thường gặp khó khăn.

Không chỉ dừng lại ở Qwen, phương pháp này còn cho thấy khả năng tổng quát hóa tốt trên các dòng mô hình Llama với quy mô từ 4B, 8B đến 30B, bao gồm cả các biến thể hướng dẫn (instruct) và biến thể tư duy (thinking).

Giải quyết mâu thuẫn giữa độ chính xác và khám phá

Tại sao một phương pháp đơn giản lại hiệu quả đến vậy? Các nhà nghiên cứu đã chỉ ra rằng SSD giải quyết được xung đột giữa độ chính xác (precision) và khả năng khám phá (exploration) trong quá trình giải mã token của LLM.

Quá trình tự chưng cất này định hình lại phân phối token một cách phụ thuộc ngữ cảnh. Nó giúp ức chế các "đuôi" gây nhiễu ở những nơi đòi hỏi độ chính xác cao, đồng thời vẫn giữ được sự đa dạng có ích ở những vị trí cần khả năng khám phá sáng tạo. SSD mở ra một hướng đi mới sau huấn luyện (post-training), bổ trợ hiệu quả cho việc nâng cao năng lực viết mã của các AI trong tương lai.

Tự chưng cất đơn giản giúp cải thiện đáng kể khả năng viết mã nguồn của LLM

LLM có thể tự hoàn thiện không?

Hiệu suất ấn tượng trên benchmark

Giải quyết mâu thuẫn giữa độ chính xác và khám phá

Bài viết liên quan