Giải thích Train-to-Test Scaling: Cách tối ưu hóa ngân sách tính toán AI cho suy luận

Các hướng dẫn xây dựng LLM hiện nay thường chỉ tối ưu hóa chi phí huấn luyện mà bỏ qua chi phí suy luận. Các nhà nghiên cứu từ Đại học Wisconsin-Madison và Stanford đã giới thiệu khung Train-to-Test (T2) scaling laws để tối ưu hóa đồng thời kích thước mô hình, lượng dữ liệu và số mẫu suy luận. Phương pháp này chứng minh rằng việc huấn luyện các mô hình nhỏ hơn trên lượng dữ liệu khổng lồ, sau đó dùng nguồn lực tiết kiệm được để tạo nhiều mẫu suy luận, là cách hiệu quả nhất để tối đa hóa hiệu suất trong giới hạn ngân sách.

Các hướng dẫn tiêu chuẩn để xây dựng các mô hình ngôn ngữ lớn (LLM) hiện nay thường chỉ tập trung tối ưu hóa chi phí huấn luyện mà bỏ qua chi phí suy luận (inference). Điều này tạo ra thách thức lớn đối với các ứng dụng thực tế sử dụng các kỹ thuật mở rộng quy mô tại thời điểm suy luận để tăng độ chính xác của phản hồi, chẳng hạn như việc lấy nhiều mẫu lý luận từ mô hình khi triển khai.

Để lấp đầy khoảng trống này, các nhà nghiên cứu tại Đại học Wisconsin-Madison và Đại học Stanford đã giới thiệu Train-to-Test (T2) scaling laws. Đây là một khung lý thuyết cùng tối ưu hóa ba yếu tố: kích thước tham số của mô hình, khối lượng dữ liệu huấn luyện và số lượng mẫu suy luận tại thời điểm kiểm tra.

Trên thực tế, cách tiếp cận này chứng minh rằng về mặt tính toán, việc huấn luyện các mô hình nhỏ hơn đáng kể trên lượng dữ liệu lớn hơn nhiều so với các quy tắc truyền thống quy định, sau đó sử dụng chi phí tính toán tiết kiệm được để tạo ra nhiều mẫu lặp lại tại thời điểm suy luận là tối ưu nhất.

Đối với các nhà phát triển ứng dụng AI doanh nghiệp đang tự huấn luyện mô hình của riêng mình, nghiên cứu này cung cấp một kế hoạch đã được chứng minh để tối đa hóa lợi nhuận đầu tư (ROI). Nó cho thấy rằng lý luận AI không nhất thiết phải chi tiêu khổng lồ cho các mô hình tiên phong (frontier models). Thay vào đó, các mô hình nhỏ hơn có thể mang lại hiệu suất mạnh mẽ hơn trên các nhiệm vụ phức tạp trong khi vẫn giữ chi phí suy luận cho mỗi truy vấn ở mức quản lý được trong ngân sách triển khai thực tế.

Xung đột giữa các quy luật Scaling

Quy luật Scaling là một phần quan trọng trong việc phát triển các mô hình ngôn ngữ lớn. Quy luật Scaling cho tiền huấn luyện (pretraining) quy định cách tốt nhất để phân bổ nguồn lực tính toán trong quá trình tạo ra mô hình, trong khi quy luật Scaling thời gian kiểm tra (test-time scaling) hướng dẫn cách phân bổ tính toán khi triển khai, chẳng hạn như để mô hình "nghĩ lâu hơn" hoặc tạo nhiều mẫu lý luận để giải quyết các vấn đề phức tạp.

Vấn đề là các quy luật này được phát triển hoàn toàn độc lập với nhau mặc dù chúng có mối liên hệ cơ bản sâu sắc.

Kích thước tham số của mô hình và thời gian huấn luyện trực tiếp quy định cả chất lượng và chi phí cho mỗi truy vấn của các mẫu suy luận. Hiện tại, tiêu chuẩn vàng của ngành cho tiền huấn luyện là quy tắc Chinchilla, quy định tỷ lệ tối ưu về mặt tính toán là khoảng 20 token huấn luyện cho mỗi tham số mô hình.

Tuy nhiên, các nhà tạo ra dòng mô hình AI hiện đại như Llama, Gemma và Qwen thường xuyên phá vỡ quy tắc này bằng cách cố ý huấn luyện quá mức (overtrain) các mô hình nhỏ hơn của họ trên lượng dữ liệu khổng lồ.

Theo Nicholas Roberts, đồng tác giả của bài báo, cách tiếp cận truyền thống sẽ gặp khó khăn khi xây dựng các quy trình tác nhân AI phức tạp: "Theo quan điểm của tôi, ngăn xếp suy luận sẽ bị phá vỡ khi mỗi lệnh gọi suy luận riêng lẻ đều tốn kém. Điều này xảy ra khi các mô hình quá lớn và bạn cần thực hiện nhiều lần lấy mẫu lặp lại." Thay vì dựa vào các mô hình khổng lồ, các nhà phát triển có thể sử dụng các mô hình nhỏ gọn đã được huấn luyện quá mức để chạy quá trình lấy mẫu lặp lại này với chỉ một phần chi phí.

Tuy nhiên, vì quy luật scaling huấn luyện và thời gian kiểm tra được xem xét riêng lẻ, nên không có khung khổ nghiêm ngặt nào để tính toán một mô hình nên được huấn luyện quá mức bao nhiêu dựa trên số lượng mẫu lý luận mà nó sẽ cần tạo ra trong quá trình triển khai. Hậu quả là, trước đây chưa có công thức nào cùng tối ưu hóa kích thước mô hình, khối lượng dữ liệu huấn luyện và ngân sách suy luận thời gian kiểm tra.

Lý do khiến khung này khó formulate là vì tiền huấn luyện và scaling thời gian kiểm tra sử dụng hai ngôn ngữ toán học khác nhau. Trong quá trình tiền huấn luyện, hiệu suất của mô hình được đo bằng "loss" (mất mát), một chỉ số trơn tru, liên tục theo dõi lỗi dự đoán khi mô hình học hỏi. Tại thời điểm kiểm tra, các nhà phát triển sử dụng các chỉ số hạ nguồn thực tế để đánh giá khả năng lý luận của mô hình, chẳng hạn như pass@k, đo lường xác suất mà mô hình sẽ tạo ra ít nhất một câu trả lời đúng trong số k lần thử độc lập.

Quy luật Train-to-Test Scaling

Để giải quyết sự ngắt kết nối giữa huấn luyện và triển khai, các nhà nghiên cứu đã giới thiệu quy luật Train-to-Test (T2). Ở mức độ cao, khung này dự đoán hiệu suất lý luận của mô hình bằng cách coi ba biến số là một phương trình duy nhất: kích thước của mô hình (N), khối lượng token huấn luyện mà mô hình học từ đó (D), và số lượng mẫu lý luận mà nó tạo ra trong quá trình suy luận (k).

T2 kết hợp ngân sách tiền huấn luyện và suy luận thành một công thức tối ưu hóa tính đến cả chi phí cơ bản để huấn luyện mô hình (6ND) và chi phí phức hợp để truy vấn nó nhiều lần tại thời điểm suy luận (2Nk). Các nhà nghiên cứu đã thử các cách tiếp cận mô hình hóa khác nhau: liệu nên mô hình hóa mất mát tiền huấn luyện hay hiệu suất thời gian kiểm tra (pass@k) dưới dạng hàm của N, D và k.

Cách tiếp cận đầu tiên lấy phương trình toán học quen thuộc được sử dụng cho Chinchilla scaling (tính toán lỗi dự đoán hoặc mất mát của mô hình) và sửa đổi trực tiếp nó bằng cách thêm một biến số mới tính đến số lượng mẫu kiểm tra lặp lại (k). Điều này cho phép các nhà phát triển thấy việc tăng tính toán suy luận làm giảm tỷ lệ lỗi tổng thể của mô hình như thế nào.

Cách tiếp cận thứ hai mô hình hóa trực tiếp độ chính xác pass@k hạ nguồn. Nó cho các nhà phát triển biết xác suất rằng ứng dụng của họ sẽ giải quyết một vấn đề với một ngân sách tính toán cụ thể.

Nhưng các doanh nghiệp có nên sử dụng khung này cho mọi ứng dụng không? Roberts làm rõ rằng cách tiếp cận này rất chuyên biệt. "Tôi hình dung rằng bạn sẽ không thấy nhiều lợi ích cho các ứng dụng thiên về kiến thức, chẳng hạn như các mô hình trò chuyện," ông nói. Thay vào đó, "T2 được thiết kế riêng cho các ứng dụng thiên về lý luận như lập trình, nơi thường bạn sẽ sử dụng lấy mẫu lặp lại làm phương pháp scaling thời gian kiểm tra của mình."

Ý nghĩa đối với các nhà phát triển

Để xác thực các quy luật scaling T2, các nhà nghiên cứu đã xây dựng một hệ thống kiểm tra rộng lớn bao gồm hơn 100 mô hình ngôn ngữ, có kích thước từ 5 triệu đến 901 triệu tham số. Họ đã huấn luyện 21 điểm kiểm tra mới (checkpoints) được huấn luyện quá mức từ đầu để kiểm tra xem các dự báo toán học của họ có đúng trong thực tế hay không. Sau đó, họ đo điểm hiệu suất của các mô hình trên tám nhiệm vụ đa dạng, bao gồm cả các tập dữ liệu thực tế như SciQ và OpenBookQA, cùng với các nhiệm vụ tổng hợp được thiết kế để kiểm tra số học, lý luận không gian và ghi nhớ kiến thức.

Cả hai mô hình toán học của họ đều chứng minh rằng biên giới tối ưu về mặt tính toán chuyển dịch mạnh mẽ away khỏi quy luật scaling Chinchilla tiêu chuẩn. Để tối đa hóa hiệu suất trong một ngân sách cố định, lựa chọn tối ưu là một mô hình nhỏ hơn đáng kể và được huấn luyện trên lượng dữ liệu lớn hơn nhiều so với quy tắc truyền thống 20 token trên mỗi tham số quy định.

Trong các thí nghiệm của họ, các mô hình nhỏ được huấn luyện quá mức liên tục vượt trội hơn các mô hình tối ưu theo Chinchilla lớn hơn trên tất cả tám nhiệm vụ đánh giá khi chi phí lấy mẫu thời gian kiểm tra được tính đến.

Đối với các nhà phát triển muốn triển khai những phát hiện này, rào cản kỹ thuật thấp một cách đáng ngạc nhiên.

"Không cần gì quá cầu kỳ để thực hiện scaling thời gian kiểm tra với các mô hình hiện tại của chúng tôi," Roberts nói. "Tại thời điểm triển khai, các nhà phát triển hoàn toàn có thể tích hợp cơ sở hạ tầng làm cho quá trình lấy mẫu hiệu quả hơn (ví dụ: KV caching nếu bạn đang sử dụng transformer)."

KV caching giúp ích bằng cách lưu trữ ngữ cảnh đã xử lý trước đó để mô hình không phải đọc lại lời nhắc ban đầu từ đầu cho mỗi mẫu lý luận mới.

Tuy nhiên, việc huấn luyện quá mức cực đoan đi kèm với các sự đánh đổi thực tế. Mặc dù các mô hình được huấn luyện quá mức có thể nổi tiếng là cứng đầu và khó tinh chỉnh (fine-tune) hơn, Roberts lưu ý rằng khi họ áp dụng tinh chỉnh có giám sát, "mặc dù hiệu ứng này tồn tại, nó không đủ mạnh để kéo mô hình tối ưu trở lại Chinchilla." Chiến lược tối ưu về mặt tính toán vẫn nghiêng về phía các mô hình nhỏ gọn.

Tuy nhiên, các nhóm đẩy điều này đến giới hạn tuyệt đối phải cảnh giác với việc đạt đến giới hạn dữ liệu vật lý. "Một góc độ khác là nếu bạn áp dụng các khuyến nghị overtraining của chúng tôi đến mức cực đoan, bạn thực sự có thể hết dữ liệu huấn luyện," Roberts nói, đề cập đến "bức tường dữ liệu" sắp tới nơi dữ liệu internet chất lượng cao cạn kiệt.

Các thí nghiệm này xác nhận rằng nếu một ứng dụng phụ thuộc vào việc tạo nhiều mẫu lý luận thời gian kiểm tra, việc huấn luyện quá mức một cách quyết liệt một mô hình nhỏ gọn là cách hiệu quả nhất về mặt thực tế và toán học để chi tiêu ngân sách tính toán đầu cuối.

Để giúp các nhà phát triển bắt đầu, nhóm nghiên cứu có kế hoạch mã nguồn mở các điểm kiểm tra và mã của họ trong thời gian sớm, cho phép các doanh nghiệp cắm dữ liệu của riêng mình và kiểm tra hành vi scaling ngay lập tức. Cuối cùng, khung này đóng vai trò là một lực lượng bình đẳng hóa trong ngành công nghiệp AI.

Điều này đặc biệt quan trọng khi giá cao của các mô hình tiên phong có thể trở thành rào cản khi bạn mở rộng quy mô các ứng dụng tác nhân phụ thuộc vào các mô hình lý luận.

"T2 thay đổi cơ bản việc ai được xây dựng các mô hình lý luận mạnh mẽ," Roberts kết luận. "Bạn có thể không cần ngân sách tính toán khổng lồ để đạt được lý luận tiên tiến. Thay vào đó, bạn cần dữ liệu tốt và sự phân bổ thông minh ngân sách huấn luyện và suy luận của mình."

Giải thích Train-to-Test Scaling: Cách tối ưu hóa ngân sách tính toán AI cho suy luận

Xung đột giữa các quy luật Scaling

Quy luật Train-to-Test Scaling

Ý nghĩa đối với các nhà phát triển

Bài viết liên quan