RLSD: Phương pháp mới giúp xây dựng AI suy luận tùy chỉnh với chi phí tính toán thấp hơn
Việc huấn luyện các mô hình AI có khả năng suy luận thường đòi hỏi tài nguyên tính toán khổng lồ mà nhiều doanh nghiệp không thể đáp ứng. Các nhà nghiên cứu từ JD.com và các cơ sở học thuật vừa giới thiệu phương pháp RLSD, kết hợp ưu điểm của học tăng cường và tự chưng cất để giải quyết bài toán này. Kết quả thử nghiệm cho thấy RLSD giúp mô hình hoạt động hiệu quả hơn các phương pháp truyền thống đồng thời giảm thiểu rào cản kỹ thuật và tài chính.
Việc huấn luyện các mô hình AI có khả năng suy luận (reasoning models) thường đòi hỏi tài nguyên tính toán khổng lồ mà hầu hết các đội ngũ doanh nghiệp không thể đáp ứng. Các kỹ sư thường phải đối mặt với sự lựa chọn khó khăn: hoặc là chưng cất (distill) kiến thức từ các mô hình lớn đắt đỏ, hoặc là dựa vào các kỹ thuật học tăng cường (reinforcement learning) chỉ cung cấp phản hồi thưa thớt.
Gần đây, các nhà nghiên cứu tại JD.com và một số cơ sở học thuật đã giới thiệu một phương pháp huấn luyện mới giúp giải quyết tình thế tiến thoái lưỡng nan này. Kỹ thuật có tên gọi Reinforcement Learning with Verifiable Rewards with Self-Distillation (RLSD), kết hợp khả năng theo dõi hiệu suất đáng tin cậy của học tăng cường với phản hồi chi tiết của tự chưng cất.
Các thí nghiệm cho thấy các mô hình được huấn luyện bằng RLSD vượt trội hơn so với những mô hình được xây dựng dựa trên các thuật toán chưng cất và học tăng cường kinh điển. Đối với các đội ngũ doanh nghiệp, cách tiếp cận này làm giảm các rào cản về kỹ thuật và tài chính trong việc xây dựng các mô hình suy luận tùy chỉnh phù hợp với logic nghiệp vụ cụ thể.
Vấn đề trong huấn luyện các mô hình suy luận
Phương pháp tiêu chuẩn để huấn luyện các mô hình suy luận là Reinforcement Learning with Verifiable Rewards (RLVR). Trong mô hình này, mô hình học thông qua thử và sai, được dẫn dắt bởi kết quả cuối cùng từ môi trường. Một bộ kiểm tra tự động sẽ xác định xem câu trả lời của mô hình đúng hay sai, cung cấp một phần thưởng nhị phân như 0 hoặc 1.
Tuy nhiên, RLVR gặp phải vấn đề về phản hồi thưa thớt và đồng nhất. "GRPO tiêu chuẩn gặp vấn đề về mật độ tín hiệu," Chenxu Yang, đồng tác giả của bài nghiên cứu, chia sẻ với VentureBeat. "Một chuỗi suy luận dài hàng nghìn token chỉ nhận được một phần thưởng nhị phân duy nhất, và mọi token bên trong chuỗi đó đều nhận được tín dụng giống nhau, dù đó là một bước logic then chốt hay một cụm từ thừa thãi." Hậu quả là mô hình không bao giờ học được bước trung gian nào dẫn đến thành công hay thất bại của nó.
On-Policy Distillation (OPD) tiếp cận vấn đề theo hướng khác. Thay vì chờ đợi kết quả cuối cùng, các nhà phát triển sẽ ghép nối một mô hình học sinh nhỏ hơn với một mô hình giáo viên lớn hơn và có khả năng hơn. Đối với mỗi ví dụ huấn luyện, học sinh so sánh phản hồi của mình với giáo viên theo từng token (token-by-token). Điều này cung cấp cho học sinh phản hồi chi tiết trên toàn bộ chuỗi suy luận và quá trình tạo phản hồi.
Tuy nhiên, việc triển khai và chạy một mô hình giáo viên khổng lồ riêng biệt song song với học sinh trong suốt quá trình huấn luyện gây ra gánh nặng tính toán khổng lồ. "Bạn phải duy trì một mô hình giáo viên lớn hơn trong suốt quá trình huấn luyện, điều này làm tăng gấp đôi dung lượng GPU," Yang nói. Hơn nữa, mô hình giáo viên và học sinh phải chia sẻ cấu trúc từ vựng chính xác giống nhau, điều này theo Yang "loại trừ ngầm hầu hết các thiết lập đa kiến trúc, đa phương thức hoặc đa ngôn ngữ mà doanh nghiệp thực sự chạy."
Sự hứa hẹn và thất bại của tự chưng cất
On-Policy Self-Distillation (OPSD) xuất hiện như một giải pháp được thiết kế để vượt qua các nhược điểm của hai phương pháp trên. Trong OPSD, cùng một mô hình đóng vai trò vừa là học sinh vừa là giáo viên.
Trong quá trình huấn luyện, phiên bản học sinh nhận một lệnh (prompt) tiêu chuẩn trong khi phiên bản giáo viên nhận thông tin đặc quyền (privileged information), chẳng hạn như đáp án từng bước đã được xác minh. Phiên bản giáo viên hiểu biết này sau đó đánh giá phiên bản học sinh, cung cấp phản hồi từng token trong khi học sinh cố gắng giải quyết vấn đề chỉ bằng lệnh tiêu chuẩn.
Thoạt nhìn, OPSD dường như là sự thỏa hiệp hoàn hảo cho ngân sách doanh nghiệp. Nó cung cấp sự hướng dẫn chi tiết từng bước như OPD. Vì loại bỏ nhu cầu về một mô hình giáo viên bên ngoài, nó hoạt động với hiệu quả tính toán cao và chi phí thấp của RLVR, chỉ yêu cầu một lần chuyển tiếp (forward pass) thêm cho giáo viên.
Tuy nhiên, các nhà nghiên cứu phát hiện ra rằng OPSD mắc phải một hiện tượng gọi là "rò rỉ thông tin đặc quyền" (privileged information leakage).
"Mục tiêu về mặt cấu trúc là không phù hợp," Yang nói. "Có một khoảng cách thông tin lẫn nhau không thể giảm thiểu mà học sinh không bao giờ thể đóng lại... Khi tự chưng cất được thiết lập dưới dạng khớp phân phối, học sinh được yêu cầu bắt chước toàn bộ phân phối đầu ra của giáo viên dưới ngữ cảnh đặc quyền."
Vì giáo viên đánh giá học sinh dựa trên một đáp án ẩn, mục tiêu huấn luyện buộc mô hình học sinh phải học cách diễn đạt hoặc các bước chính xác của giáo viên thay vì logic suy luận cơ bản. Kết quả là, mô hình học sinh bắt đầu bị ảo giác (hallucinating) và tham chiếu đến một giải pháp vô hình mà nó sẽ không có quyền truy cập trong triển khai thực tế.
Trong thực tế, các mô hình OPSD cho thấy sự tăng hiệu suất nhanh chóng trong giai đoạn đầu huấn luyện, nhưng khả năng suy luận của chúng sớm đạt đến ngưỡng và dần suy giảm theo thời gian.
Tách biệt hướng và độ lớn với RLSD
Các nhà nghiên cứu đứng sau RLSD nhận ra rằng các tín hiệu chi phối cách mô hình cập nhật tham số có các yêu cầu cơ bản không đối xứng. Họ xác định rằng tín hiệu quy định hướng của cập nhật (tức là củng cố hay trừng phạt một hành vi) có thể thưa thớt, nhưng phải hoàn toàn đáng tin cậy, vì chỉ sai hướng sẽ làm hỏng chính sách suy luận của mô hình.
Mặt khác, tín hiệu quy định độ lớn của cập nhật (tức là bao nhiêu tín dụng hoặc lỗi tương đối mà một bước cụ thể xứng đáng) sẽ được lợi nếu cực kỳ dày đặc để cho phép các chỉnh sửa chi tiết từng bước.
RLSD được xây dựng dựa trên nguyên tắc này bằng cách tách biệt hướng cập nhật khỏi độ lớn cập nhật. Khung framework này cho phép phản hồi môi trường có thể kiểm chứng từ tín hiệu RLSR quyết định nghiêm ngặt hướng học tập. Mô hình chỉ nhận được tăng cường tổng thể nếu câu trả lời cuối cùng khách quan là đúng.
Giáo viên tự thân bị tước bỏ quyền lực quy định mô hình nên tạo ra gì. Thay vào đó, đánh giá từng token của giáo viên được tái mục đích để xác định độ lớn của cập nhật. Nó đơn giản là phân phối tổng tín dụng hoặc lỗi trên các bước riêng lẻ của đường dẫn suy luận của mô hình.
Điều này thay đổi cách mô hình học so với mô hình OPSD kinh điển. Trong OPSD tiêu chuẩn, mục tiêu huấn luyện hoạt động giống như sao chép hành vi (behavioral cloning), nơi mô hình bị buộc sao chép trực tiếp chính xác từng từ và cách diễn đạt của giáo viên. Điều này khiến học sinh bị ảo giác và rò rỉ tham chiếu đến dữ liệu mà nó không có.
Thay vì buộc mô hình sao chép một giải pháp ẩn, RLSD cung cấp một nguồn thông tin tín dụng từng token tự nhiên và gần như miễn phí.
"Trực giác là: chúng tôi không dạy mô hình suy luận như giáo viên," Yang nói. "Chúng tôi đang cho mô hình biết, trên con đường nó chọn, token nào thực sự đang làm việc. Phân phối khám phá của mô hình vẫn là của chính nó. Chỉ có việc phân bổ tín dụng được sắc nét hơn."
Nếu một suy luận cụ thể hỗ trợ mạnh mẽ kết quả đúng, nó nhận điểm cao hơn. Nếu nó chỉ là một từ lấp đầy vô dụng, nó nhận điểm cơ bản. RLSD loại bỏ nhu cầu huấn luyện các mạng lưới phần thưởng phụ trợ phức tạp, chú thích dữ liệu từng bước thủ công, hoặc duy trì các mô hình giáo viên bên ngoài khổng lồ.
Đưa RLSD vào thử nghiệm
Để kiểm thử RLSD, các nhà nghiên cứu đã huấn luyện mô hình ngôn ngữ-vision Qwen3-VL-8B (open-weight) và đánh giá nó trên một số benchmark suy luận thị giác. Các benchmark này bao gồm MMMU cho các câu hỏi đa ngành cấp đại học, MathVista, MathVision, WeMath và ZeroBench — một benchmark kiểm thử áp lực được thiết kế để gần như không thể đối với các mô hình tiên phong hiện tại.
Họ so sánh mô hình RLSD với mô hình cơ sở không có huấn luyện sau, RLVR tiêu chuẩn thông qua thuật toán GRPO, OPSD tiêu chuẩn và sự kết hợp lai của hai phương pháp.
RLSD vượt trội hơn mọi phương pháp khác, đạt độ chính xác trung bình cao nhất là 56,18% trên cả năm benchmark. Nó đánh bại mô hình cơ sở 4,69% và vượt trội hơn RLVR tiêu chuẩn 2,32%. Những cải thiện này rõ rệt nhất trong các nhiệm vụ suy luận toán học phức tạp, nơi RLSD vượt trội hơn RLVR tiêu chuẩn 3,91% trên benchmark MathVision.
Ngoài độ chính xác, framework này mang lại lợi ích hiệu quả khổng lồ. "Cụ thể, RLSD ở 200 bước huấn luyện đã đánh bại GRPO huấn luyện 400 bước, do đó tăng tốc độ hội tụ khoảng 2 lần," Yang nói. "Về chi phí, chi phí duy nhất thêm ngoài pipeline GRPO bình thường là một lần chuyển tiếp thêm cho mỗi phản hồi để lấy logits của giáo viên. So với việc tạo rollout... điều đó gần như miễn phí."
Khác với OPSD, vốn thấy hiệu suất tăng vọt sau đó sụp đổ hoàn toàn do rò rỉ thông tin, RLSD duy trì sự ổn định huấn luyện lâu dài và hội tụ ở trần hiệu suất cao hơn các phương pháp tiêu chuẩn.
Các phát hiện định tính làm nổi bật cách mô hình thay đổi hành vi học tập của mình. Ví dụ, trong một nhiệm vụ đếm hình ảnh phức tạp, RLVR tiêu chuẩn nhìn vào câu trả lời cuối cùng đúng và đưa ra phần thưởng giống nhau cho toàn bộ đoạn văn suy luận. RLSD áp dụng phần thưởng một cách chính xác vào các bước trừ toán học cụ thể giải quyết vấn đề, trong khi chủ động giảm điểm cho các văn bản lấp đầy chung chung như "Nhìn vào hình ảnh, tôi thấy...".
Trong một ví dụ khác, mô hình thực hiện một đạo hàm toán học sai dựa trên biểu đồ thanh. Thay vì gán nhãn toàn bộ phản hồi là thất bại, RLSD tập trung hình phạt nặng nhất vào đúng điểm mô hình đọc sai một mối quan hệ từ biểu đồ. Nó giữ trung lập với phần còn lại của thiết lập logic, nhận ra rằng khung ban đầu là hợp lệ.
Điều này đặc biệt quan trọng đối với các trường hợp sử dụng doanh nghiệp thực tế lộn xộn. Nếu một mô hình mắc lỗi khi phân tích báo cáo tài chính quý 50 trang, các nhà phát triển không muốn nó bỏ học toàn bộ khung phân tích. Họ chỉ muốn nó sửa giả định cụ thể mà nó đã sai. RLSD cho phép mô hình học chính xác những bước nhảy logic nào có giá trị và bước nào khiếm khuyết, từng token một. Vì RLSD thực hiện điều này bằng cách tái sử dụng chính mô hình, nó cung cấp cho các mô hình khả năng suy luận chi tiết trong khi giữ chi phí huấn luyện ở mức hợp lý.
Cách doanh nghiệp có thể bắt đầu
Đối với các kỹ sư dữ liệu và đội ngũ điều phối AI, việc tích hợp RLSD rất đơn giản, nhưng nó yêu cầu thiết lập phù hợp. Yêu cầu quan trọng nhất là tín hiệu phần thưởng có thể kiểm chứng, chẳng hạn như trình biên dịch mã, bộ kiểm tra toán học, thực thi SQL hoặc trình xác nhận lược đồ. "Các nhiệm vụ không có phần thưởng có thể kiểm chứng (đối thoại mở, viết theo giọng thương hiệu) thuộc về các pipeline dựa trên sở thích," Yang nói.
Tuy nhiên, RLSD rất linh hoạt đối với thông tin đặc quyền mà nó yêu cầu. Trong khi OPSD về mặt cấu trúc yêu cầu các dấu vết suy luận trung gian đầy đủ, buộc doanh nghiệp phải trả tiền cho người chú thích hoặc chưng cất từ một mô hình tiên phong, RLSD thì không.
"Nếu bạn có các dấu vết suy luận đã xác minh đầy đủ, rất tốt, RLSD sẽ sử dụng chúng," Yang nói. "Nếu tất cả những gì bạn có là câu trả lời cuối cùng đúng (ground-truth), điều đó cũng hoạt động... OPSD không có sự linh hoạt này."
Việc tích hợp kỹ thuật này vào các khung RL đa phương thức mã nguồn mở hiện có như veRL hoặc EasyR1 cực kỳ nhẹ nhàng. Theo Yang, nó không yêu cầu viết lại framework và lắp ghép ngay vào stack tiêu chuẩn. Việc thay đổi mã liên quan đến việc chỉ thay đổi vài chục dòng để điều chỉnh mục tiêu GRPO và đồng bộ hóa giáo viên với học sinh.
Nhìn về phía trước, RLSD cung cấp một cách mạnh mẽ để các doanh nghiệp tối đa hóa tài sản nội bộ hiện có của họ.
"Dữ liệu độc quyền mà doanh nghiệp nắm giữ trong phạm vi của họ (sổ tay tuân thủ, tài liệu nội bộ, vé lịch sử, đoạn mã đã xác minh) về cơ bản là thông tin đặc quyền miễn phí," Yang kết luận. "RLSD cho phép doanh nghiệp đưa loại dữ liệu này thẳng vào làm ngữ cảnh đặc quyền, làm sắc nét tín hiệu học tập trên các mô hình nhỏ hơn mà không cần giáo viên bên ngoài và không cần gửi bất cứ thứ gì ra ngoài mạng."


