Đào tạo mô hình AI từ đầu chỉ với 1.500 USD: HRM-Text thách thức kiến trúc Transformer

Các nhà nghiên cứu tại Sapient đã tạo ra HRM-Text, một mô hình nền tảng 1 tỷ tham số có thể được đào tạo từ đầu với chi phí chỉ khoảng 1.500 USD. Bằng cách thay thế kiến trúc Transformer truyền thống bằng Mô hình Recurrent phân cấp (HRM), phương pháp mới này tối ưu hóa khả năng suy luận và giảm thiểu nhu cầu về dữ liệu cũng như sức mạnh tính toán khổng lồ.

Việc đào tạo một Mô hình Ngôn ngữ Lớn (LLM) từ con số không thường tốn hàng triệu USD và yêu cầu lượng dữ liệu quy mô internet — đây là lý do hầu hết các doanh nghiệp không dám mạo hiểm thử sức. Tuy nhiên, các nhà nghiên cứu tại Sapient tin rằng họ đã tìm ra một con đường kinh tế hơn nhiều.

Để vượt qua "giáo điều" mở rộng quy mô bằng sức mạnh thô bạo hiện nay, nhóm nghiên cứu đã phát triển HRM-Text. Mô hình này thay thế các Transformer tiêu chuẩn bằng Mô hình Recurrent Phân cấp (HRM) có hiệu quả mẫu dữ liệu cực cao, một kiến trúc mà họ lần đầu giới thiệu vào năm ngoái.

HRM tách biệt tính toán thành hai lớp: lớp chiến lược phát triển chậm và lớp thực thi phát triển nhanh. Thay vì thực hiện dự đoán tự hồi quy (autoregressive) tốn kém trên văn bản thô, HRM-Text chỉ được đào tạo trên các cặp dữ liệu lệnh-phản hồi (instruction-response). Cách tiếp cận này gần với thực tế doanh nghiệp hơn, nơi người dùng mong đợi một câu trả lời cụ thể cho một nhiệm vụ xác định.

Các nhà nghiên cứu đã có thể đào tạo một mô hình HRM-Text có 1 tỷ tham số từ đầu với chi phí và số lượng token chỉ bằng một phần nhỏ so với các LLM thông thường. Mô hình của họ đạt được hiệu suất cạnh tranh với các mô hình mã nguồn mở lớn hơn nhiều trên các tiêu chuẩn quan trọng của ngành.

Đối với các ứng dụng AI thực tế, điều này có nghĩa việc đào tạo tiền huấn luyện (pretraining) không còn là đặc quyền của các tổ chức có nguồn lực khổng lồ. Với HRM-Text, các tổ chức có thể tự đào tạo các mô hình suy luận mạnh mẽ của riêng mình với chi phí hợp lý và kết hợp chúng với các kho kiến thức bên ngoài.

Nút thắt trong đào tạo AI

Khi chúng ta đào tạo một LLM, thực tế chúng ta không quá quan tâm liệu nó có thuộc lòng chuỗi từ chính xác trong một chủ đề ngẫu nhiên trên Reddit năm 2014 hay không. Điều chúng ta muốn là mô hình phát triển sự hiểu biết sâu sắc, tiềm ẩn về ngôn ngữ, logic, sự thật và khả năng suy luận của con người.

Phương pháp hiện tại dựa trên sức mạnh thô: cạo dữ liệu toàn bộ internet, chạy dự đoán token tiếp theo hàng nghìn tỷ lần và giả định rằng mô hình đã phát triển một mô hình thế giới nội bộ hoạt động được.

Về cơ bản, điều này có nghĩa là chúng ta lãng phí hàng triệu USD sức mạnh tính toán để ép buộc các mô hình ghi nhớ mọi thứ thu thập được từ internet, chỉ để chúng gián tiếp học cách suy nghĩ. Ví dụ, các mô hình chỉ giải mã (decoder-only) tiêu chuẩn tốn sức mạnh tính toán quý báu để gán mất mát nhằm tái tạo lại chính lời nhắc (prompt), mặc dù lời nhắc của người dùng đã được biết và cung cấp tại thời điểm suy luận.

Thay vì xem đây đơn giản là một rào cản tính toán, ngành công nghiệp cần nhận thức đây là một hạn chế kinh doanh nghiêm trọng. Trong bình luận với VentureBeat, Guan Wang, CEO của Sapient Intelligence, đã định vấn đề này là vấn đề của "kinh tế học sự lặp lại".

"Các doanh nghiệp hiện nay đối mặt với ba vấn đề chồng chéo: đào tạo tốn kém, cơ sở hạ tầng nặng nề và chu kỳ thử nghiệm quá chậm," ông Wang nói. "Cơn nghiện mở rộng quy mô của ngành công nghiệp nói rằng: 'Khi mô hình thất bại, hãy làm cho nó lớn hơn. Thêm dữ liệu. Thêm GPU.' Cách này đã hiệu quả, nhưng đang đạt đến điểm lợi tức giảm dần. Quy mô lớn hơn thường có nghĩa là ghi nhớ nhiều hơn, độ trễ cao hơn, cơ sở hạ tầng nhiều hơn và phụ thuộc vào nhà cung cấp nhiều hơn. Nó không nhất thiết mang lại cho doanh nghiệp một động cơ suy luận tốt hơn."

Sự kém hiệu quả về kiến trúc và tính toán này chính là lý do tại sao việc tinh chỉnh (fine-tuning) các transformer dày đặc hiện có không phải lúc nào cũng là giải pháp vạn năng cho doanh nghiệp. Việc tinh chỉnh để duy trì các khả năng tổng quát của mô hình thường yêu cầu trộn một lượng lớn dữ liệu chung vào quy trình, khiến việc tính toán trở nên nặng nề và khó kiểm soát.

"Hãy tưởng tượng một quỹ phòng hộ, công ty bảo hiểm hoặc ngân hàng có dữ liệu độc quyền cao: ghi chú nghiên cứu nội bộ, logic giao dịch, quy tuân thủ, ghi chú của chuyên gia phân tích, mô hình rủi ro, ràng buộc danh mục đầu tư," ông Wang nói. "Họ có thể không muốn gửi dữ liệu đó đến một mô hình biên giới (frontier model) bên ngoài, và họ có thể không cần một mô hình chung khổng lồ đã ghi nhớ internet. Họ cần một lõi suy luận nhỏ gọn có thể học cấu trúc nhiệm vụ của họ, suy luận qua các quy tắc và con số, và chạy trong một môi trường được kiểm soát."

Vì HRM-Text tập trung tính toán nghiêm ngặt vào việc hoàn thành nhiệm vụ và suy luận tiềm ẩn, nó cho phép các doanh nghiệp bắt đầu với một mô hình nhỏ hơn, thông minh hơn và thích nghi nó với một lĩnh vực độc quyền với cơ sở hạ tầng ít hơn nhiều.

Tái định nghĩa kiến trúc với HRM-Text

HRM, được giới thiệu vào năm 2025, đại diện cho sự thay đổi cơ bản so với các mô hình Transformer truyền thống. Để xây dựng một động cơ hiệu quả hơn về mẫu dữ liệu, HRM tách biệt tính toán thành các lớp chiến lược phát triển chậm và các lớp thực thi phát triển nhanh. Module-L nhanh thực hiện tinh chỉnh lặp lại cục bộ, trong khi module-H chậm duy trì ngữ cảnh ngữ nghĩa ổn định qua các chu kỳ. Xử lý bao gồm hai chu kỳ cấp cao, trong đó mỗi chu kỳ thực hiện ba cập nhật module-L nhanh theo sau là một cập nhật module-H chậm duy nhất.

Các kiến trúc đệ quy chia sẻ tham số tiêu chuẩn (như TRM của Samsung) đôi khi có thể xử lý các câu đố logic nhỏ, nhưng các nhà nghiên cứu Sapient phát hiện rằng chúng trở nên rất không ổn định khi mở rộng lên 1 tỷ tham số cho các nhiệm vụ ngôn ngữ. Sự tách biệt giữa module-H chậm và module-L nhanh của HRM là cần thiết về mặt toán học, không chỉ là một lựa chọn thẩm mỹ. Như ông Wang nói: "Đối với lưới logic, đôi khi bạn có thể thoát khỏi một cơ chế đệ quy nhỏ vì thế giới sạch sẽ và có giới hạn. Ngôn ngữ thì không như vậy. Ngôn ngữ cần cả tinh chỉnh cục bộ nhanh và sự ổn định ngữ nghĩa chậm."

Mặc dù HRM ban đầu chứng minh rất hiệu quả cho các vấn đề suy luận biểu tượng được kiểm soát, các nhà nghiên cứu đã gặp khó khăn khi áp dụng nó cho sự phức tạp mở rộng khổng lồ của mô hình hóa ngôn ngữ tổng quát. Trong khi các vòng lặp của HRM làm cho nó trở thành một cỗ máy suy luận cực kỳ hiệu quả, chính những vòng lặp đó làm cho nó trở nên dễ biến động về mặt toán học khi đào tạo trên sự hỗn loạn đa dạng của ngôn ngữ con người. Chạy các vòng lặp đệ quy trên ngôn ngữ tạo ra sự không ổn định toán học khổng lồ, cụ thể là hiện tượng độ dốc biến mất hoặc bùng nổ (exploding or vanishing gradients).

Để ngăn chặn vòng lặp phản hồi này trong mạng nơ-ron, các nhà nghiên cứu đã giới thiệu hai đổi mới kiến trúc chính trong HRM-Text. Đầu tiên, họ phát triển MagicNorm, một kỹ thuật chuẩn hóa chuyên biệt được thiết kế cụ thể để giữ cho các tín hiệu nội bộ ổn định, bất kể mô hình lặp lại quy trình suy luận bao nhiêu lần.

Thứ hai, họ thiết kế một phương pháp khởi động (warm-up) để ổn định việc đào tạo. Trong giai đoạn đào tạo đầu, mô hình chỉ được đánh giá trên các vòng lặp suy luận ngắn và nông. Khi đào tạo tiến triển, hệ thống sẽ khởi động, dần dần cung cấp cho mô hình các chuỗi suy luận sâu hơn và dài hơn.

Họ cũng chuyển đổi mục tiêu đào tạo từ dự đoán token tiếp theo sang hoàn thành nhiệm vụ, nơi mô hình chỉ được thưởng dựa trên phản hồi đầy đủ thay vì các token riêng lẻ mà nó tạo ra. Để đạt được mục tiêu này, họ đã thay đổi dữ liệu đào tạo của HRM-Text từ văn bản thô sang chỉ bao gồm các cặp lệnh-phản hồi.

HRM-Text trong hành động

Các nhà nghiên cứu đã xây dựng một mô hình HRM-Text cực kỳ nhỏ gọn với 1 tỷ tham số. Thay vì sử dụng quy trình đa giai đoạn tiêu chuẩn yêu cầu xử lý hàng nghìn tỷ từ văn bản thô của internet, họ đã đào tạo nó từ đầu trên một tập dữ liệu được tuyển chọn kỹ lưỡng chỉ gồm 40 tỷ token. Dữ liệu đào tạo hoàn toàn bao gồm các cặp lệnh-phản hồi trên các hướng dẫn chung, toán học, logic biểu tượng, bài tập giáo trình và kiến thức được viết lại.

Họ đào tạo mô hình bằng mục tiêu hoàn thành nhiệm vụ. Để ép buộc mô hình dựa vào kiến trúc phân cấp nội bộ của nó thay vì sao chép logic từng bước, họ đã loại bỏ rõ ràng các token "suy nghĩ" (thinking) khỏi dữ liệu đào tạo.

Mô hình được đánh giá trên một bộ các tiêu chuẩn AI nền tảng đa dạng, tập trung mạnh vào kiến thức, suy luận, logic, toán học và khả năng hiểu. Các nhà nghiên cứu đã kiểm tra HRM-Text chống lại cả các mô hình nhỏ và các mô hình có trọng số mở (open-weight) cũng như mô hình mở hoàn toàn có nguồn lực cao.

Kết quả cho thấy sự thay đổi đáng kể trong biên giới tính toán so với hiệu suất. Mô hình HRM-Text 1B tham số đạt được 60,7% trên MMLU, 84,5% trên GSM8K và 56,2% trên MATH. Hiệu suất này cạnh tranh mạnh mẽ (và trong một số trường hợp vượt qua) các mô hình nền tảng từ 2B đến 7B tham số mà nó được kiểm tra đối chiếu.

Điểm quan trọng nhất đối với khán giả doanh nghiệp nằm ở các thống kê hiệu quả và ý nghĩa thực tế. Việc đào tạo tiền huấn luyện một mô hình nền tảng từ đầu thường là một nỗ lực trị giá hàng triệu USD dành riêng cho các gã khổng lồ công nghệ. HRM-Text được đào tạo chỉ trong 1,9 ngày trên một cụm 16 GPU. Tổng chi phí tính toán ước tính khoảng 1.500 USD. Nó đạt được các điểm số cạnh tranh này bằng cách sử dụng từ 100 đến 900 lần token đào tạo ít hơn và từ 96 đến 432 lần tính toán ước tính ít hơn so với các mô hình như Qwen, Gemma và Llama.

Một điểm quan trọng khác là sự tách biệt giữa suy luận và ghi nhớ kiến thức. Về mặt thực tế, sự thành công của HRM-Text trên các nhiệm vụ nặng về suy luận bất chấp chế độ ăn kiêng đào tạo 40B token nhỏ bé chứng minh rằng một mô hình không cần phải ghi nhớ toàn bộ internet để trở thành một động cơ suy luận thông minh.

Đối với các ứng dụng doanh nghiệp, hành vi này là một tính năng, không phải lỗi. Các nhà nghiên cứu đề xuất một tương lai nơi các doanh nghiệp triển khai các mô hình đệ quy nhỏ gọn, cực kỳ rẻ tiền đóng vai trò là "lõi suy luận" chuyên biệt cho logic kinh doanh. Thay vì ép buộc mô hình ghi nhớ cơ sở dữ liệu công ty trong quá trình tiền huấn luyện, mô hình đóng vai trò là động cơ suy luận, dựa vào các hệ thống truy xuất bên ngoài để tìm nạp kiến thức thực tế.

Một số nhà phê bình chỉ ra rằng việc đào tạo trên các cặp lệnh-phản hồi làm cho việc so sánh với các mô hình được đào tạo trên văn bản thô trở thành một tình huống "so sánh táo với cam". Ông Wang phản bác lại quan điểm này, chỉ ra rằng mọi LLM hiện đại nghiêm túc đều nhìn thấy dữ liệu lệnh-phản hồi trong quá trình đào tạo hoặc căn chỉnh.

"Vì vậy, sự so sánh không phải là táo với cam. Nó gần giống như so sánh lõi táo với táo. Chúng tôi bắt đầu trực tiếp từ định dạng nhiệm vụ cốt lõi vì đó là cách mọi người thực sự sử dụng mô hình: họ đưa ra một lệnh và mong đợi một phản hồi hữu ích," ông nói.

Các nhà nghiên cứu cũng đã chạy các bài kiểm tra ô nhiễm nghiêm ngặt để đảm bảo mô hình không chỉ đơn giản là ghi nhớ câu trả lời của các tiêu chuẩn benchmark. Trên DROP, tiêu chuẩn duy nhất cho thấy tín hiệu ô nhiễm biên theo một cài đặt cụ thể, HRM-Text vẫn đạt được điểm số ấn tượng 81,1% trên một tập hợp con sạch hoàn toàn, 0% ô nhiễm.

Cuối cùng, ông Wang lập luận rằng đối với các doanh nghiệp, "đánh giá đúng không phải là nhớ lại kiến thức vụn vặt. Nó là một đánh giá quy trình làm việc... Hãy cho HRM-Text một nhiệm vụ như: suy luận tài chính đa bước, logic tuân thủ, tự động hóa quy trình khoa học, trích xuất có cấu trúc theo sau là suy luận."

Triển khai thực tế và tương lai của AI doanh nghiệp

Mặc dù các điểm số benchmark và hiệu quả chi phí là ấn tượng, Sapient rất rõ ràng về các giới hạn hiện tại của mô hình. Bản phát hành ban đầu được xem tốt nhất như một bằng chứng về khái niệm, tương tự như các bản phát hành GPT đầu tiên, được thiết kế để giới thiệu các lợi thế độc đáo của kiến trúc.

"Thành thật mà nói, HRM-Text chưa phải là sự thay thế plug-and-play cho ChatGPT," ông Wang nói. "Đó là một mô hình suy luận ngôn ngữ nền tảng nhỏ gọn. Đối với một nhóm kỹ thuật doanh nghiệp, công việc vận hành chủ yếu xoay quanh các mẫu, lựa chọn chế độ, che attention và căn chỉnh."

Đối với các nhóm kỹ thuật AI muốn thử nghiệm, việc bắt đầu yêu cầu một số kỷ luật tạo văn bản cụ thể nhưng tiêu chuẩn. Mô hình liệt kê hỗ trợ gốc trong thư viện Transformers (yêu cầu transformers >= 5.9.0), và các đường dẫn sử dụng cho vLLM và SGLang đang được phát triển tích cực. Nhiệm vụ kỹ thuật chính liên quan đến việc quản lý thiết kế PrefixLM: các ứng dụng trò chuyện đa vòng (multi-turn) sản xuất sẽ yêu cầu logic bộ nhớ đệm KV cẩn thận để đảm bảo lời nhắc của người dùng nhận được sự chú ý hai chiều đầy đủ trong khi đầu ra của trợ lý vẫn duy trì tính nhân quả.

"Khi chi phí đào tạo một mô hình suy luận có khả năng giảm xuống khoảng 1.500 USD, AI không còn chỉ là một câu hỏi về cơ sở hạ tầng mà trở thành một câu hỏi chiến lược," ông Wang nói. "Một công ty Fortune 500 không còn phải hỏi, 'Chúng ta có đủ khả năng cho một mô hình nền tảng không?' Họ sẽ hỏi, 'Mô hình của chúng ta nên biết điều gì về doanh nghiệp của chúng ta, và loại suy luận nào nên được tối ưu hóa?'"