ZAYA1-8B: Mô hình lý luận AI nhỏ gọn, mã nguồn mở được đào tạo trên GPU AMD MI300

Startup Zyphra vừa ra mắt ZAYA1-8B, một mô hình ngôn ngữ nhỏ gọn nhưng hiệu suất cao, được đào tạo hoàn toàn trên GPU AMD Instinct MI300. Với kiến trúc MoE++ tiên tiến và giấy phép Apache 2.0, mô hình này chứng minh khả năng lý luận ấn tượng, cạnh tranh sòng phẳng với các phiên bản cao cấp của GPT-5 và DeepSeek.

Trong bối cảnh các "ông lớn" như OpenAI và Anthropic đang chạy đua khốc liệt về sức mạnh tính toán để xây dựng các mô hình AI ngày càng khổng lồ, một số phòng thí nghiệm lại chọn hướng đi khác: phát triển các mô hình nhỏ hơn, hiệu quả hơn và mã nguồn mở. Mới đây, startup Zyphra (Palo Alto) đã gây tiếng vang lớn với việc ra mắt ZAYA1-8B, một mô hình ngôn ngữ kiểu Mixture-of-Experts (MoE) tập trung vào khả năng lý luận.

Điểm đáng chú ý là ZAYA1-8B chỉ có hơn 8 tỷ tham số, trong đó chỉ 760 triệu tham số hoạt động — con số khiêm tốn so với hàng nghìn tỷ tham số của các đối thủ lớn. Tuy nhiên, hiệu suất của nó lại cạnh tranh sòng phẳng với GPT-5-High và DeepSeek-V3.2 trên các thước điểm bên thứ ba. Đặc biệt, mô hình này được đào tạo hoàn toàn trên nền tảng GPU AMD Instinct MI300, chứng minh rằng phần cứng của AMD hoàn toàn khả dụng để tạo ra các mô hình AI chất lượng cao, là đối thủ xứng tầm của Nvidia.

Cách ZAYA1-8B được đào tạo

Zyphra mô tả thành công của ZAYA1-8B là kết quả của sự đổi mới "full-stack", bao gồm kiến trúc, tiền huấn luyện và học tăng cường (RL). Mô hình này được xây dựng trên kiến trúc độc quyền MoE++, mang lại ba thay đổi cơ bản so với kiến trúc Transformer tiêu chuẩn:

Compressed Convolutional Attention (CCA): Khác với cơ chế chú ý thông thường gặp khó khăn về bộ nhớ khi cửa sổ ngữ cảnh mở rộng, CCA thực hiện trộn chuỗi trong một không gian tiềm ẩn nén. Điều này giúp giảm 8 lần kích thước KV-cache, cho phép lý luận ngữ cảnh dài hiệu quả hơn.
Bộ định tuyến MLP ZAYA1: Hầu hết các mô hình MoE sử dụng bộ định tuyến tuyến tính để quyết định "chuyên gia" xử lý token nào. Zyphra thay thế bằng thiết kế đa lớp MLP phức tạp hơn. Để duy trì ổn định trong quá trình huấn luyện, họ áp dụng sơ đồ cân bằng độ lệch lấy cảm hứng từ bộ điều khiển PID trong lý thuyết điều khiển cổ điển.
Tỷ lệ thặng dư đã học (Learned Residual Scaling): Tính năng này kiểm soát sự tăng trưởng của "chuẩn thặng dư" khi dữ liệu chảy sâu hơn vào 40 lớp của mô hình, ngăn chặn sự biến mất hoặc bùng nổ gradient mà không gây gánh nặng tính toán đáng kể.

Tiền huấn luyện ưu tiên lý luận

Một điểm khác biệt quan trọng của ZAYA1-8B là khả năng lý luận được tích hợp ngay từ đầu quá trình tiền huấn luyện, thay vì chỉ được thêm vào sau khi huấn luyện xong. Để xử lý các chuỗi suy luận (chain-of-thought) dài vượt quá ngữ cảnh 4K ban đầu, Zyphra đã phát triển kỹ thuật Answer-Preserving (AP) Trimming.

Hãy tưởng tượng AP-trimming giống như một biên tập viên phim cắt một cảnh dài: thay vì cắt đi kết thúc (giải pháp) hay bỏ cả cảnh, biên tập viên sẽ cắt bỏ phần "giữa" của đoạn độc thoại nhưng giữ lại phần đầu (thiết lập vấn đề) và phần cuối cùng (câu trả lời). Điều này đảm bảo mô hình học được mối quan hệ giữa các vấn đề phức tạp và giải pháp của chúng ngay cả khi logic nội bộ đầy đủ chưa vừa với bộ nhớ.

Markovian RSA: Định nghĩa lại tính toán thời gian chạy

Bước nhảy vọt về hiệu suất của mô hình đến từ Markovian RSA, một phương pháp tính toán thời gian chạy (TTC) mới lạ. Thông thường, để mô hình "nghĩ kỹ hơn", ta để nó tạo ra chuỗi suy luận dài hơn. Tuy nhiên, điều này thường dẫn đến "phình ngữ cảnh", khiến mô hình mất tập trung.

Markovian RSA giải quyết vấn đề bằng cách tách rời "độ sâu suy nghĩ" khỏi "kích thước ngữ cảnh". Nó hoạt động giống như quy trình thẩm định khoa học đệ quy:

Mô hình tạo ra nhiều chuỗi suy luận song song (các ứng viên).
Sau đó, nó chỉ trích xuất các "đuôi" (vài nghìn token cuối cùng) của các chuỗi này.
Các đuôi này được lấy mẫu con và đưa vào mô hình trong một "lời nhắc tổng hợp mới", yêu cầu mô hình hòa giải các cách tiếp cận khác nhau để đưa ra giải pháp tốt hơn.

Bằng cách chỉ chuyển tiếp các đuôi (ngân sách khoảng 4K token), mô hình có thể suy luận vô thời hạn mà không bao giờ tràn ngữ cảnh. Trong thực tế, điều này cho phép ZAYA1-8B với 700 triệu tham số hoạt động đạt điểm 91,9% trên AIME '25, thu hẹp khoảng cách với các mô hình có số lượng tham số hoạt động lớn hơn 30-50 lần.

Nhờ kích thước tham số tổng thể nhỏ (8,4B), ZAYA1-8B ở vị trí lý tưởng để triển khai trên thiết bị (on-device) và các ứng dụng LLM cục bộ. Điều này mang lại khả năng suy luận cấp cao — vốn thường dành cho các mô hình đám mây khổng lồ — trực tiếp lên phần cứng cục bộ hoặc thiết bị biên, giải quyết các vấn đề về dữ liệu, độ trễ và chi phí API cho doanh nghiệp.

Hiệu suất ấn tượng vượt trên tầm trọng lượng

Zyphra định vị ZAYA1-8B là mô hình "vượt trên tầm trọng lượng" dành cho các nhà phát triển cần khả năng suy luận cao mà không gặp độ trễ hay chi phí của các mô hình biên giới khổng lồ.

Tuân thủ hướng dẫn: ZAYA1-8B đạt 85,58 điểm trên IFEval, cạnh tranh với các mô hình lớn hơn nhiều như Intellect-3 (106B).
Khả năng tác tử: Trên thước điểm τ², mô hình đạt 43,12, và 39,22 trên BFCL-v4, cho thấy khả năng xử lý gọi công cụ và nhiệm vụ đa vòng lặp tốt.

Khi Markovian RSA được bật, kết quả còn đáng kinh ngạc hơn:

HMMT '25 (Toán học): ZAYA1-8B đạt 89,6%, vượt qua Claude 4.5 Sonnet (79,2%) và GPT-5-High (88,3%).
LiveCodeBench (Lập trình): Mô hình đạt 69,2%, vượt qua DeepSeek-R1-0528.

Tuy nhiên, Zyphra lưu ý rằng dù mô hình là chuyên gia về lý luận thuật toán, nó vẫn hơi kém hơn các mô hình lớn hơn trong các nhiệm vụ "nặng về kiến thức" như truy xuất sự thực tổng quát (MMLU-Pro).

Giấy phép Apache 2.0 thân thiện với doanh nghiệp

Zyphra đã phát hành ZAYA1-8B dưới giấy phép Apache-2.0. Đây là một lựa chọn quan trọng cho cộng đồng nhà phát triển. Khác với các giấy phép "copyleft" như GPL yêu cầu các công phẩm phái sinh cũng phải mã nguồn mở, Apache-2.0 rất thoáng.

Điều này có nghĩa là các nhà phát triển và doanh nghiệp có thể sử dụng, sửa đổi và phân phối ZAYA1-8B — ngay cả trong các ứng dụng thương mại độc quyền — mà không bị buộc phải mã nguồn mở cơ sở mã của chính họ. Giấy phép này cũng bao gồm sự cấp quyền sử dụng bằng sáng chế rõ ràng từ các đóng góp viên, mang lại sự an toàn pháp lý cho các startup xây dựng dựa trên kiến trúc của Zyphra.

Để triển khai ZAYA1-8B, các nhà phát triển cần sử dụng các nhánh cụ thể từ các bản fork của Zyphra cho các thư viện cốt lõi như vllm và transformers, do kiến trúc yêu cầu xử lý chuyên biệt.

Về Zyphra: Định hướng mật độ trí tuệ

Được thành lập năm 2021 tại Palo Alto, Zyphra Technologies là một phòng thí nghiệm AI toàn cầu cam kết xây dựng Trí tuệ nhân tạo tổng quát (AGI) có sự liên kết với con người thông qua khuôn khổ phi tập trung và mã nguồn mở. Zyphra thách thức sự thống trị của các mô hình đám mây tập trung bằng cách tập trung vào "mật độ trí tuệ" — tối đa hóa lý luận và logic trích xuất trên mỗi tham số và mỗi FLOP.

Công ty đã đạt được cột mốc kỹ thuật quan trọng thông qua tích hợp sâu với hệ sinh thái phần cứng AMD. Theo dữ liệu từ PitchBook, Zyphra đã đạt trạng thái "Kỳ lân" vào tháng 6 năm 2025 sau vòng gọi vốn Series A trị giá 110 triệu USD, với sự hỗ trợ từ các nhà đầu tư chiến lược như AMD, IBM, Bison Ventures và BC VC.

Phản ứng của cộng đồng và bối cảnh ngành

Thông báo này đã nhận được sự quan tâm lớn trong cộng đồng AI, với gần 1 triệu lượt xem trên X/Twitter trong vòng 24 giờ. Sự hào hứng tập trung vào hai yếu tố: khả năng của nền tảng AMD và hiệu quả của quy trình suy luận "cascade".

Các chuyên gia công nghệ đã đánh giá cao quy trình hậu huấn luyện của Zyphra — một chuỗi RL 4 giai đoạn — rất kỷ luật. Một chi tiết kỹ thuật được khen ngợi là Router Replay, giúp ổn định quá trình huấn luyện trong các mô hình MoE bằng cách ghi lại chính xác các lựa chọn chuyên gia và buộc bộ huấn luyện phải sử dụng chúng.

Khi ngành công nghiệp đối mặt với việc việc chỉ thêm tham số có thể không còn mang lại lợi ích lớn, ZAYA1-8B cung cấp một câu chuyện thuyết phục: biên giới tiếp theo của AI không chỉ là các cụm máy tính lớn hơn, mà là các thuật toán "nghĩ" thông minh hơn làm được nhiều việc hơn với ít nguồn lực hơn.