Nghiên cứu viên tuyên bố huấn luyện mô hình nền tảng từ đầu chỉ với chi phí khoảng 1.500 USD

Thông thường, việc huấn luyện một LLM từ đầu tốn hàng triệu USD, nhưng Sapient đã giới thiệu HRM-Text, một kiến trúc mới thay thế Transformer. Mô hình 1 tỷ tham số này đạt hiệu suất cạnh tranh với chi phí chỉ khoảng 1.500 USD, tập trung vào khả năng suy luận và xử lý tác vụ cụ thể thay vì ghi nhớ dữ liệu internet.

Việc huấn luyện một Mô hình Ngôn ngữ Lớn (LLM) nền tảng từ con số không thường đòi hỏi chi phí hàng triệu đô la và lượng dữ liệu quy mô internet — đây là lý do khiến hầu hết các doanh nghiệp phải e ngại. Tuy nhiên, Sapient tin rằng họ đã tìm ra một con đường kinh tế hơn nhiều.

Để vượt qua quan điểm "càng lớn càng tốt" hiện nay, các nhà nghiên cứu tại Sapient đã phát triển HRM-Text, thay thế các mô hình Transformer tiêu chuẩn bằng Mô hình Recurrent Phân cấp (HRM) có hiệu quả mẫu cực cao. Đây là một kiến trúc mà họ lần đầu giới thiệu vào năm ngoái.

HRM tách biệt tính toán thành các lớp chiến lược phát triển chậm và các lớp thực thi phát triển nhanh. Thay vì thực hiện dự báo tự hồi quy (autoregressive) kiểu vét cạn trên văn bản thô, HRM-Text chỉ được huấn luyện độc quyền trên các cặp dữ liệu lệnh-phản hồi (instruction-response pairs). Cách tiếp cận này gần với thực tế doanh nghiệp hơn, nơi người dùng thường mong đợi một câu trả lời cụ thể cho một nhiệm vụ nhất định.

Các nhà nghiên cứu đã có thể huấn luyện một mô hình HRM-Text có 1 tỷ tham số từ đầu với chi phí và số lượng token chỉ bằng một phần nhỏ so với các LLM thông thường. Mô hình của họ đạt được hiệu suất cạnh tranh với các mô hình mã nguồn mở lớn hơn nhiều trên các tiêu chuẩn quan trọng của ngành.

Đối với các ứng dụng AI thực tế, điều này có nghĩa việc huấn luyện tiền huấn luyện (pretraining) nền tảng không còn bị giới hạn ở các tổ chức có nguồn lực dồi dào. Với HRM-Text, các tổ chức có thể tự huấn luyện các mô hình suy luận có khả năng cao từ đầu với chi phí hợp lý và kết hợp chúng với các kho kiến thức bên ngoài.

Nút thắt trong huấn luyện LLM hiện tại

Khi chúng ta huấn luyện một LLM, thực tế chúng ta không quá quan tâm liệu nó có ghi nhớ chính xác chuỗi từ trong một chủ đề ngẫu nhiên trên Reddit năm 2014 hay không. Điều chúng ta mong muốn là mô hình phát triển được sự hiểu biết sâu sắc, tiềm ẩn về ngôn ngữ con người, logic, sự thật và khả năng suy luận.

Phương pháp hiện tại chủ yếu dựa vào sức mạnh thô: cạo dữ liệu toàn bộ internet, chạy dự báo token tiếp theo hàng nghìn tỷ lần và giả định rằng mô hình đã phát triển được một mô hình nội tại hoạt động về thế giới.

Về cơ bản, điều này có nghĩa là chúng ta lãng phí hàng triệu đô la sức mạnh tính toán để ép buộc các mô hình ghi nhớ mọi thứ thu thập được từ internet, chỉ để chúng gián tiếp học cách suy nghĩ. Ví dụ, các mô hình giải mã chỉ tiêu chuẩn (decoder-only) thường tốn sức tính toán quý báu để gán mất mát nhằm tái tạo lại chính câu lệnh (prompt), mặc dù câu lệnh của người dùng đã được biết và cung cấp tại thời điểm suy luận.

Thay vì chỉ xem đây là một rào cản tính toán, ngành công nghiệp cần nhận thức đây là một hạn chế kinh doanh nghiêm trọng. Trong bình luận dành cho VentureBeat, Guan Wang, CEO của Sapient Intelligence, đã định vấn đề này là vấn đề của "kinh tế của sự lặp lại".

"Các doanh nghiệp hiện nay đối mặt với ba vấn đề phức tạp: huấn luyện tốn kém, cơ sở hạ tầng nặng nề và chu kỳ thử nghiệm quá chậm," ông Wang nói. "Cơn nghiện quy mô của ngành công nghiệp nói rằng: 'Khi mô hình thất bại, hãy làm cho nó lớn hơn. Thêm dữ liệu. Thêm GPU'. Cách này đã hiệu quả, nhưng đang đạt đến điểm lợi tức giảm dần. Quy mô lớn hơn thường có nghĩa là ghi nhớ nhiều hơn, độ trễ cao hơn, cơ sở hạ tầng nhiều hơn và phụ thuộc vào nhà cung cấp nhiều hơn. Nó không nhất thiết mang lại cho doanh nghiệp một động cơ suy luận tốt hơn."

Sự kém hiệu quả về kiến trúc và tính toán này chính là lý do tại sao việc tinh chỉnh (fine-tuning) các transformer dày đặc hiện có không phải lúc nào cũng là giải pháp vạn năng cho doanh nghiệp. Việc tinh chỉnh để duy trì các khả năng tổng quát của mô hình thường yêu cầu pha trộn một lượng lớn dữ liệu chung vào quy trình, khiến việc tính toán trở nên nặng nề và khó kiểm soát.

"Hãy tưởng tượng một quỹ phòng hộ, công ty bảo hiểm hoặc ngân hàng có dữ liệu độc quyền cao: ghi chú nghiên cứu nội bộ, logic giao dịch, quy tuân thủ, ghi chú của chuyên gia phân tích, mô hình rủi ro, ràng buộc danh mục đầu tư," ông Wang nói. "Họ có thể không muốn gửi dữ liệu đó đến một mô hình biên giới bên ngoài, và họ có thể không cần một mô hình chung khổng lồ đã ghi nhớ internet. Họ cần một lõi suy luận nhỏ gọn có thể học cấu trúc nhiệm vụ của họ, suy luận trên các quy tắc và con số, và hoạt động trong một môi trường được kiểm soát."

Vì HRM-Text tập trung tính toán nghiêm ngặt vào việc hoàn thành nhiệm vụ và suy luận tiềm ẩn, nó cho phép các doanh nghiệp bắt đầu với một mô hình nhỏ hơn, thông minh hơn và thích nghi nó với một lĩnh vực độc quyền với cơ sở hạ tầng ít hơn nhiều.

Tái định nghĩa kiến trúc với HRM-Text

HRM, được giới thiệu vào năm 2025, đại diện cho sự thay đổi cơ bản so với các mô hình Transformer truyền thống. Để xây dựng một động cơ hiệu quả mẫu hơn, HRM tách biệt tính toán thành các lớp chiến lược phát triển chậm và các lớp thực thi phát triển nhanh. Mô-đun L nhanh thực hiện tinh chỉnh lặp lại cục bộ, trong khi mô-đun H chậm duy trì ngữ cảnh ngữ nghĩa ổn định qua các chu kỳ. Xử lý bao gồm hai chu kỳ cấp cao, trong đó mỗi chu kỳ thực hiện ba cập nhật mô-đun L nhanh theo sau là một cập nhật mô-đun H chậm duy nhất.

Các kiến trúc đệ quy chia sẻ tham số tiêu chuẩn (như TRM của Samsung) đôi khi có thể xử lý các câu đố logic nhỏ, nhưng các nhà nghiên cứu Sapient phát hiện ra rằng chúng trở nên rất không ổn định khi mở rộng lên 1 tỷ tham số cho các nhiệm vụ ngôn ngữ. Sự tách biệt giữa mô-đun H chậm và mô-đun L nhanh của HRM là cần thiết về mặt toán học, không chỉ là một lựa chọn thẩm mỹ.

"Đối với các lưới logic, đôi khi bạn có thể thoát khỏi một cơ chế đệ quy nhỏ vì thế giới gọn gàng và có giới hạn," ông Wang nói. "Ngôn ngữ thì không như vậy. Ngôn ngữ cần cả sự tinh chỉnh cục bộ nhanh và sự ổn định ngữ nghĩa chậm."

Mặc dù HRM ban đầu chứng minh rất hiệu quả cho các vấn đề suy luận biểu tượng được kiểm soát, các nhà nghiên cứu gặp khó khăn khi áp dụng nó cho sự phức tạp mở rộng khổng lồ của mô hình hóa ngôn ngữ tổng quát. Trong khi các vòng lặp của HRM biến nó thành một "người suy nghĩ" cực kỳ hiệu quả, chính những vòng lặp đó khiến nó trở nên dễ biến động về mặt toán học khi huấn luyện trên sự hỗn loạn đa dạng của ngôn ngữ con người. Chạy các vòng lặp đệ quy trên ngôn ngữ tạo ra sự không ổn định toán học khổng lồ, cụ thể là hiện tượng gradient nổ (exploding gradients) hoặc gradient vơi (vanishing gradients).

Để ngăn chặn vòng lặp phản hồi này trong mạng nơ-ron, các nhà nghiên cứu đã giới thiệu hai đổi mới kiến trúc chính trong HRM-Text. Thứ nhất, họ phát triển MagicNorm, một kỹ thuật chuẩn hóa chuyên biệt được thiết kế cụ thể để giữ cho các tín hiệu nội bộ ổn định, bất kể mô hình lặp lại quy trình suy nghĩ bao nhiêu lần.

Thứ hai, họ thiết kế một phương pháp khởi động (warm-up) để ổn định việc huấn luyện. Trong giai đoạn đầu huấn luyện, mô hình chỉ được đánh giá trên các vòng lặp suy luận ngắn và nông. Khi việc huấn luyện tiến triển, hệ thống sẽ khởi động, dần dần cung cấp cho mô hình các chuỗi suy luận sâu hơn và dài hơn.

Họ cũng chuyển đổi mục tiêu huấn luyện từ dự báo token tiếp theo sang hoàn thành nhiệm vụ, nơi mô hình chỉ được thưởng dựa trên phản hồi đầy đủ thay vì các token riêng lẻ mà nó tạo ra. Để đạt được mục tiêu này, họ đã thay đổi dữ liệu huấn luyện của HRM-Text từ văn bản thô sang chỉ bao gồm các cặp lệnh-phản hồi.

HRM-Text trong thực tế

Các nhà nghiên cứu đã xây dựng một mô hình HRM-Text cực kỳ nhỏ gọn với 1 tỷ tham số. Thay vì sử dụng quy trình đa giai đoạn tiêu chuẩn yêu cầu xử lý hàng nghìn tỷ từ văn bản thô của internet, họ đã huấn luyện nó từ đầu trên một tập dữ liệu được tuyển chọn kỹ lưỡng chỉ gồm 40 tỷ token. Dữ liệu huấn luyện bao gồm hoàn toàn các cặp lệnh-phản hồi trên các hướng dẫn chung, toán học, logic biểu tượng, bài tập giáo khoa và kiến thức được viết lại.

Họ huấn luyện mô hình bằng mục tiêu hoàn thành nhiệm vụ. Để ép buộc mô hình dựa vào kiến trúc phân cấp nội bộ của nó thay vì sao chép logic từng bước, họ đã loại bỏ rõ ràng các token "suy nghĩ" (thinking tokens) khỏi dữ liệu huấn luyện.

Mô hình được đánh giá trên một bộ các tiêu chuẩn AI nền tảng đa dạng, tập trung mạnh vào kiến thức, suy luận, logic, toán học và khả năng hiểu. Các nhà nghiên cứu đã kiểm tra HRM-Text chống lại cả các mô hình nhỏ và các mô hình mã nguồn mở có trọng số mở và hoàn toàn mở với nguồn lực cao.

Kết quả cho thấy sự thay đổi đáng kể trong ranh giới giữa tính toán và hiệu suất. Mô hình HRM-Text 1B tham số đạt được 60,7% trên MMLU, 84,5% trên GSM8K và 56,2% trên MATH. Hiệu suất này cạnh tranh mạnh mẽ (và trong một số trường hợp vượt trội) các mô hình nền tảng từ 2B đến 7B tham số mà nó được so sánh.

Điểm quan trọng nhất đối với khán giả doanh nghiệp nằm ở các thống kê hiệu quả và ý nghĩa thực tế. Việc huấn luyện trước một mô hình nền tảng từ đầu thường là một việc tốn hàng triệu đô la dành riêng cho các gã khổng lồ công nghệ. HRM-Text được huấn luyện chỉ trong 1,9 ngày trên một cụm 16 GPU. Tổng chi phí tính toán ước tính chỉ khoảng 1.500 USD. Nó đạt được các điểm số cạnh tranh bằng cách sử dụng từ 100 đến 900 lần token huấn luyện ít hơn và từ 96 đến 432 lần tính toán ước tính ít hơn so với các mô hình như Qwen, Gemma và Llama.

Một điểm quan trọng khác là sự tách biệt giữa suy luận và ghi nhớ kiến thức. Về mặt thực tế, sự thành công của HRM-Text trên các nhiệm vụ nặng về suy luận mặc dù chế độ ăn huấn luyện token chỉ 40B nhỏ bé chứng minh rằng một mô hình không cần phải ghi nhớ toàn bộ internet để trở thành một động cơ suy luận thông minh.

Đối với các ứng dụng doanh nghiệp, hành vi này là một tính năng, không phải lỗi. Các nhà nghiên cứu đề xuất một tương lai nơi các doanh nghiệp triển khai các mô hình đệ quy nhỏ gọn, cực kỳ rẻ tiền đóng vai trò là "lõi suy luận" chuyên biệt cho logic kinh doanh. Thay vì ép buộc mô hình ghi nhớ cơ sở dữ liệu công ty trong quá trình huấn luyện trước, mô hình đóng vai trò là động cơ suy luận, dựa vào các hệ thống truy xuất bên ngoài để tìm nạp kiến thức thực tế.

Một số người chỉ trích đã chỉ ra rằng việc huấn luyện trên các cặp lệnh-phản hồi làm cho các so sánh với các mô hình được huấn luyện trên văn bản thô trở thành một tình huống "so sánh táo với cam". Ông Wang phản bác lại quan điểm này, chỉ ra rằng mọi LLM hiện đại nghiêm túc đều nhìn thấy dữ liệu lệnh-phản hồi trong quá trình huấn luyện hoặc căn chỉnh.

"Vì vậy, sự so sánh không phải là táo với cam. Nó gần giống như so sánh lõi táo với táo. Chúng tôi bắt đầu trực tiếp từ định dạng nhiệm vụ cốt lõi vì đó là cách mọi người thực sự sử dụng mô hình: họ đưa ra một lệnh và mong đợi một phản hồi hữu ích," ông nói.

Các nhà nghiên cứu cũng đã chạy các bài kiểm tra ô nhiễm nghiêm ngặt để đảm bảo mô hình không chỉ đơn giản là ghi nhớ câu trả lời tiêu chuẩn. Trên DROP, tiêu chuẩn duy nhất cho thấy tín hiệu ô nhiễm biên giới trong một cài đặt cụ thể, HRM-Text vẫn đạt được điểm số ấn tượng 81,1% trên một tập hợp con sạch nghiêm ngặt, 0% ô nhiễm.

Cuối cùng, ông Wang lập luận rằng đối với các doanh nghiệp, "đánh giá đúng không phải là nhớ lại kiến thức vụn vặt. Đó là đánh giá quy trình làm việc... Hãy cho HRM-Text một nhiệm vụ như: suy luận tài chính đa bước, logic tuân thủ, tự động hóa quy trình khoa học, trích xuất có cấu trúc theo sau là suy luận."

Triển khai thực tế và tương lai của AI doanh nghiệp

Mặc dù các điểm số tiêu chuẩn và hiệu quả chi phí là ấn tượng, Sapient rất rõ ràng về các giới hạn hiện tại của mô hình. Bản phát hành ban đầu tốt nhất nên được xem như một bằng chứng về khái niệm, tương tự như các bản phát hành GPT đầu tiên, được thiết kế để giới thiệu các lợi thế độc đáo của kiến trúc.

"Thành thật mà nói, HRM-Text chưa phải là sự thay thế plug-and-play cho ChatGPT," ông Wang nói. "Đó là một mô hình suy luận ngôn ngữ nền tảng nhỏ gọn. Đối với một nhóm kỹ thuật doanh nghiệp, công việc vận hành chủ yếu xoay quanh các mẫu, lựa chọn chế độ, che attention và căn chỉnh."

Đối với các nhóm kỹ thuật AI muốn thử nghiệm, việc bắt đầu yêu cầu một số kỷ luật tạo văn bản cụ thể nhưng tiêu chuẩn. Mô hình liệt kê hỗ trợ gốc trong thư viện Transformers (yêu cầu transformers >= 5.9.0), và các đường dẫn sử dụng cho vLLM và SGLang đang được phát triển tích cực. Nhiệm vụ kỹ thuật chính liên quan đến việc quản lý thiết kế PrefixLM: các ứng dụng trò chuyện nhiều lượt sản xuất sẽ yêu cầu logic bộ nhớ đệm KV cẩn thận để đảm bảo các câu lệnh của người dùng nhận được sự chú ý hai chiều đầy đủ trong khi đầu ra của trợ lý vẫn duy trì tính nhân quả.

"Khi chi phí huấn luyện một mô hình suy luận có khả năng giảm xuống khoảng 1.500 USD, AI không còn chỉ là một câu hỏi về cơ sở hạ tầng mà trở thành một câu hỏi chiến lược," ông Wang nói. "Một công ty Fortune 500 không còn phải hỏi, 'Chúng ta có đủ khả năng chi trả cho một mô hình nền tảng không?'. Họ sẽ hỏi, 'Mô hình của chúng ta nên biết điều gì về doanh nghiệp của chúng ta, và loại suy luận nào nên được tối ưu hóa cho nó?'"