AutoTTS: Khung tự động hóa suy luận LLM giúp cắt giảm 69,5% chi phí token

Các nhà nghiên cứu từ Meta và Google đã giới thiệu AutoTTS, một khung công tác tự động hóa việc thiết kế chiến lược suy luận cho các mô hình ngôn ngữ lớn (LLM). Thay vì điều chỉnh thủ công, AutoTTS sử dụng AI để tìm ra chính sách phân bổ tài nguyên tối ưu, giúp giảm tới 69,5% lượng token tiêu thụ mà vẫn giữ nguyên độ chính xác.

Test-time scaling (TTS) đã nổi lên như một phương pháp được chứng minh để cải thiện hiệu suất của các mô hình ngôn ngữ lớn (LLM) trong các ứng dụng thực tế bằng cách cung cấp thêm chu kỳ tính toán tại thời điểm suy luận. Tuy nhiên, các chiến lược TTS trước đây thường được chế tạo thủ công, dựa nhiều vào trực giác con người để quy định các quy tắc suy luận của mô hình.

Để giải quyết nút thắt này, các nhà nghiên cứu từ Meta, Google và một số trường đại học đã giới thiệu AutoTTS, một khung công tác tự động khám phá các chiến lược TTS tối ưu. Cách tiếp cận tự động hóa này cho phép các tổ chức doanh nghiệp tối ưu hóa việc phân bổ tính toán một cách linh hoạt mà không cần tinh chỉnh các heuristic thủ công.

Bằng cách triển khai các chiến lược tối ưu do AutoTTS khám phá, các tổ chức có thể giảm trực tiếp việc sử dụng token và chi phí vận hành khi triển khai các mô hình suy luận nâng cao trong môi trường sản xuất. Trong các thử nghiệm, AutoTTS đã quản lý ngân sách suy luận hiệu quả, giảm thành công mức tiêu thụ token lên tới 69,5% mà không làm giảm độ chính xác.

Nút thắt thủ công trong việc mở rộng quy mô thời gian kiểm tra

Test-time scaling (TTS) nâng cao LLM bằng cách cấp thêm sức mạnh tính toán khi chúng tạo ra câu trả lời. Lượng tính toán thêm này cho phép mô hình tạo ra nhiều đường dẫn suy luận khác nhau hoặc đánh giá các bước trung gian của nó trước khi đưa ra phản hồi cuối cùng.

Thách thức chính khi thiết kế chiến lược TTS là xác định cách phân bổ lượng tính toán thêm này một cách tối ưu. Theo lịch sử, các nhà nghiên cứu đã thiết kế các chiến lược này theo cách thủ công, dựa vào phỏng đoán để xây dựng các heuristic cứng nhắc. Các kỹ sư phải đưa ra các giả thuyết về quy tắc và ngưỡng cho thời điểm mô hình nên phân nhánh thành các đường dẫn suy luận mới, thăm dò sâu hơn một đường dẫn hiện có, cắt bỏ một nhánh không triển vọng hoặc ngừng suy luận hoàn toàn.

Vì quá trình tinh chỉnh thủ công này bị giới hạn bởi trực giác con người, một lượng lớn các phương pháp có thể vẫn chưa được khám phá. Điều này thường dẫn đến sự đánh đổi không tối ưu giữa độ chính xác của mô hình và chi phí tính toán.

Các thuật toán TTS hiện tại có thể được ánh xạ tới một không gian kiểm soát chiều rộng-chiều sâu — trong đó "chiều rộng" là số lượng nhánh suy luận được khám phá, "chiều sâu" là mức độ phát triển của từng nhánh. Self-consistency (SC) lấy mẫu một số lượng cố định các quỹ đạo và bỏ phiếu đa số cho câu trả lời. Adaptive-consistency (ASC) tiết kiệm tính toán bằng cách dừng sớm khi đạt ngưỡng độ tin cậy. Parallel-probe tiếp cận chi tiết hơn, cắt bỏ các nhánh không triển vọng trong khi làm sâu sắc các nhánh còn lại. Cả ba phương pháp đều được chế tạo thủ công, và đó là giới hạn mà AutoTTS được thiết kế để phá vỡ.

Mặc dù một số phương pháp nâng cao hơn sử dụng các cấu trúc phong phú hơn như tìm kiếm cây hoặc bộ xác minh bên ngoài, tất cả chúng đều chia sẻ một đặc điểm chính: chúng được chế tạo thủ công một cách tỉ mỉ. Cách tiếp cận thủ công này hạn chế phạm vi khám phá chiến lược, để lại một phần lớn không gian phân bổ tài nguyên tiềm năng chưa được khai thác.

Tự động hóa việc khám phá chiến lược với AutoTTS

AutoTTS định hình lại cách tối ưu hóa việc mở rộng quy mô thời gian kiểm tra. Thay vì coi thiết kế chiến lược là một nhiệm vụ của con người, AutoTTS tiếp cận nó như một vấn đề tìm kiếm thuật toán trong một môi trường được kiểm soát.

Khung công tác này định nghĩa lại vai trò của cả kỹ sư con người và mô hình AI. Thay vì chế tạo thủ công các quy tắc cụ thể cho thời điểm LLM nên phân nhánh, cắt bỏ hoặc ngừng suy luận, vai trò của kỹ sư chuyển sang xây dựng môi trường khám phá. Con người định nghĩa các ranh giới, bao gồm không gian kiểm soát của trạng thái và hành động, mục tiêu tối ưu hóa cân bằng giữa độ chính xác và chi phí, cũng như các cơ chế phản hồi cụ thể.

Một LLM khám phá, chẳng hạn như Claude Code, sẽ thiết kế chiến lược. Trình khám phá này đóng vai trò là một tác nhân tự động đề xuất lặp đi lặp lại các "bộ điều khiển" TTS. Những bộ điều khiển này là các chính sách hoặc thuật toán được định nghĩa bằng code quy định cách mô hình AI phân bổ ngân sách tính toán của nó trong quá trình suy luận. Trình khám phá kiểm tra và tinh chỉnh các bộ điều khiển này dựa trên phản hồi cho đến khi tìm ra chính sách phân bổ tài nguyên tối ưu.

Để làm cho quá trình tìm kiếm tự động này khả thi về mặt tính toán, AutoTTS dựa vào một "môi trường phát lại ngoại tuyến" (offline replay environment). Nếu LLM khám phá phải gọi một mô hình suy luận cơ sở để tạo ra token mới mỗi khi nó kiểm tra một chiến lược mới, chi phí tính toán sẽ là thiên văn. Thay vào đó, nó dựa vào hàng ngàn quỹ đạo suy luận được thu thập trước từ LLM cơ sở. Các quỹ đạo này bao gồm các "tín hiệu thăm dò", là các câu trả lời trung gian giúp bộ điều khiển đánh giá tiến độ trên các nhánh suy luận khác nhau.

Trong vòng lặp khám phá, tác nhân khám phá đề xuất một bộ điều khiển và đánh giá nó dựa trên dữ liệu ngoại tuyến này. Tác nhân quan sát các vết thực thi của bộ điều khiển được đề xuất cho thấy cách nó phân bổ tính toán theo thời gian. Bằng cách phân tích các vết này, tác nhân có thể chẩn đoán các chế độ thất bại cụ thể, chẳng hạn như lưu ý nếu một bộ điều khiển cắt bỏ các nhánh quá quyết liệt trong một kịch bản cụ thể. Điều này mang lại lợi thế so với việc chỉ xem kết quả cuối cùng. Tác nhân sau đó viết lại code của mình để cải thiện sự đánh đổi giữa độ chính xác và chi phí.

Bên trong bộ điều khiển do AI thiết kế

Vì tác nhân khám phá không bị giới hạn bởi trực giác con người, nó có thể khám phá các quy tắc phức tạp, được phối hợp cao mà một kỹ sư con người có thể sẽ không bao giờ viết bằng tay. Một bộ điều khiển tối ưu do AutoTTS khám phá, có tên là Confidence Momentum Controller (Bộ điều khiển Động lượng Tự tin), tận dụng một số cơ chế không rõ ràng để quản lý tính toán:

Dừng dựa trên xu hướng: Các chiến lược thủ công thường hướng dẫn mô hình ngừng suy luận khi đạt đến ngưỡng độ tin cậy tức thời nhất định. Tác nhân AutoTTS phát hiện ra rằng độ tin cậy tức thời có thể gây hiểu lầm do các đột biến tạm thời. Thay vào đó, bộ điều khiển theo dõi mức trung bình động hàm mũ (EMA) của độ tin cậy và chỉ dừng lại nếu mức độ tin cậy tổng thể cao và xu hướng không đang giảm tích cực.
Kiểm soát chiều rộng-chiều sâu liên kết: Các thuật toán được thiết kế thủ công thường coi việc "mở rộng" các đường dẫn suy luận mới và "làm sâu" các đường dẫn hiện tại là các quyết định riêng biệt. AutoTTS đã khám phá một vòng phản hồi khép kín nơi hai hành động này được liên kết. Nếu độ tin cậy của các nhánh hiện tại bị đình trệ hoặc thụt lùi, bộ điều khiển sẽ tự động kích hoạt việc tạo ra các nhánh mới.
Phân bổ chiều sâu nhận thức sự đồng thuận: Thay vì cấp ngân sách tính toán bằng nhau cho tất cả các nhánh suy luận đang hoạt động, bộ điều khiển xác định động lực các nhánh nào đồng ý với câu trả lời dẫn đầu hiện tại. Sau đó, nó cấp cho các nhánh đó các "đợt" tính toán ưu tiên. Điều này tập trung ngân sách tính toán vào sự đồng thuận đang nổi lên để nhanh chóng xác minh xem nó có đúng hay không.

Tiết kiệm chi phí và tăng độ chính xác trong các benchmark thực tế

Để kiểm tra xem liệu AI có thể tự chủ khám phá một chiến lược mở rộng quy mô thời gian kiểm tra tốt hơn hay không, các nhà nghiên cứu đã thiết lập một khung đánh giá nghiêm ngặt. Các thí nghiệm cốt lõi được thực hiện trên các mô hình Qwen3 từ 0,6B đến 8B tham số. Các nhà nghiên cứu cũng kiểm tra khả năng tổng quát hóa của hệ thống trên phiên bản 8B chưng cất của mô hình DeepSeek-R1.

Tác nhân AI khám phá ban đầu được giao nhiệm vụ khám phá một chiến lược tối ưu sử dụng benchmark suy luận toán học AIME24. Chiến lược được khám phá này sau đó được kiểm tra trên hai benchmark toán học dự phòng, AIME25 và HMMT25, cũng như benchmark suy luận chung cấp sau đại học GPQA-Diamond.

Bộ điều khiển do AutoTTS khám phá đã được đối đầu với bốn thuật toán mở rộng quy mô thời gian kiểm tra được thiết kế thủ công trong ngành. Các đường cơ sở này bao gồm Self-Consistency với 64 đường dẫn suy luận song song (SC@64), Adaptive-Consistency (ASC), Parallel-Probe và Early-Stopping Self-Consistency (ESC). ESC là một cách tiếp cận lai tạo ra các quỹ đạo song song và dừng sớm khi một câu trả lời có vẻ ổn định.

Khi được đặt ở chế độ cân bằng, tiết kiệm chi phí, bộ điều khiển do AutoTTS khám phá đã giảm tổng lượng tiêu thụ token khoảng 69,5% so với SC@64. Đồng thời, bộ điều khiển duy trì độ chính xác trung bình giống nhau trên cả bốn mô hình Qwen. Khi ngân sách suy luận được tăng lên, AutoTTS đã đẩy độ chính xác đỉnh cao vượt qua tất cả các đường cơ sở thủ công trong năm trên tám trường hợp thử nghiệm.

Hiệu quả này chuyển sang các nhiệm vụ khác. Trên benchmark GPQA-Diamond, biến thể cân bằng của AutoTTS đã cắt giảm chi phí token suy luận từ 510K token xuống chỉ còn 151K token, đồng thời cải thiện nhẹ độ chính xác tổng thể. Trên mô hình DeepSeek, AutoTTS đạt được độ chính xác tổng thể cao nhất trên benchmark HMMT25 trong khi cắt giảm chi tiêu token gần một nửa.

Đối với các chuyên gia xây dựng ứng dụng AI doanh nghiệp, các thí nghiệm này làm nổi bật hai lợi ích vận hành chính:

Nâng cao hiệu suất đỉnh cao: AutoTTS không chỉ tiết kiệm tiền trên việc tiêu thụ token. Nó chủ động nâng cao hiệu suất đỉnh cao có thể đạt được của mô hình cơ sở. Bộ điều khiển do AI thiết kế rất giỏi trong việc phát hiện các nhánh suy luận ồn ào hoặc không hiệu quả trên đường bay và liên tục chuyển hướng ngân sách tính toán của nó sang các nhánh tạo ra các tín hiệu suy luận hữu ích nhất.
Phát triển tùy chỉnh tiết kiệm chi phí: Vì khung công tác dựa vào môi trường phát lại ngoại tuyến, toàn bộ quá trình khám phá chỉ tốn 39,90 USD và mất 160 phút. Đối với các nhóm doanh nghiệp, điều đó có nghĩa là các chiến lược suy luận được tối ưu hóa dành riêng cho các mô hình độc quyền và nhiệm vụ nội bộ hiện đã nằm trong tầm tay — mà không cần ngân sách nghiên cứu chuyên biệt.

Cả khung công tác AutoTTS và Confidence Momentum Controller đều có sẵn trên GitHub; CMC có thể được sử dụng làm thay thế trực tiếp cho các bộ điều khiển TTS khác.