SubQ 1.1 Small: Mô hình AI xử lý 12 triệu token với chi phí tính toán giảm 64 lần

16 tháng 6, 2026·5 phút đọc

Subquadratic công bố SubQ 1.1 Small, mô hình AI sử dụng cơ chế Subquadratic Sparse Attention (SSA) để xử lý ngữ cảnh lên đến 12 triệu token. Mô hình đạt hiệu suất gần như hoàn hảo trong các bài kiểm tra truy xuất và giúp giảm 64,5 lần chi phí tính toán so với cơ chế chú ý dày đặc truyền thống.

SubQ 1.1 Small: Mô hình AI xử lý 12 triệu token với chi phí tính toán giảm 64 lần

Các bài toán AI doanh nghiệp khó khăn nhất thường có một đặc điểm chung: chúng đòi hỏi khả năng suy luận trên toàn bộ các dữ liệu khổng lồ như toàn bộ mã nguồn, bộ sưu tập tài liệu, hợp đồng hay báo cáo tài chính. Trong nhiều năm, ngành công nghiệp đã cố gắng giải quyết vấn đề này bằng cách xây dựng các quy trình truy xuất (retrieval pipelines) và chiến lược chia nhỏ dữ liệu, nhưng về bản chất đây chỉ là các giải pháp tạm thời cho giới hạn về độ dài ngữ cảnh của kiến trúc mô hình hiện tại.

Rào cản cốt lõi nằm ở cơ chế chú ý (attention): tính toán tăng theo cấp số bình phương với độ dài ngữ cảnh, khiến việc suy luận trực tiếp trên các dữ liệu lớn trở nên quá đắt đỏ. SubQ được xây dựng để loại bỏ rào cản đó.

Hôm nay, Subquadratic đã công bố thẻ thông số kỹ thuật cho SubQ 1.1 Small — phiên bản thứ hai của mô hình Subquadratic Sparse Attention (SSA) ở kích thước nhỏ nhất. Mô hình này đang trong quá trình được triển khai cho các đối tác thiết kế và có kế hoạch ra mắt dòng mô hình rộng hơn hỗ trợ từ 2M đến 12M token vào cuối năm nay.

Tính năng nổi bật

SubQ 1.1 Small mang đến những bước tiến quan trọng trong việc xử lý ngữ cảnh siêu dài:

  • Khả năng truy xuất ngữ cảnh dài gần như hoàn hảo lên đến 12 triệu token trong bài kiểm tra "tìm kim trong đống cỏ" (Needle-in-a-haystack), đồng thời giảm tính toán chú ý lên tới gần 1.000 lần.
  • Cân bằng giữa tối ưu hóa ngữ cảnh dài và khả năng suy luận chung, duy trì hiệu suất mạnh mẽ trên các benchmark về kiến thức, lập trình và tác vụ tác nhân doanh nghiệp.
  • Tại mức 1 triệu token, SubQ 1.1 Small yêu cầu ít tính toán hơn 64,5 lần so với chú ý dày đặc (dense attention) và chạy nhanh hơn 56 lần so với FlashAttention-2.

Những kết quả này phản ánh lợi thế mở rộng mà hiệu quả của thuật toán SSA mang lại.

Đánh giá hiệu năng (Benchmarks)

SubQ 1.1 Small được đánh giá trên năm trục, bao gồm truy xuất ngữ cảnh dài, tổng quát hóa độ dài ngữ cảnh, kiến thức, lập trình và các tác vụ tác nhân tầm xa.

Truy xuất và tổng quát hóa ngữ cảnh dài

Subquadratic đã chọn bài kiểm tra Needle-In-A-Haystack (NIAH) và RULER của Nvidia để kiểm tra khả năng tìm kiếm một sự thật bị chôn vùi sâu trong ngữ cảnh lớn và khả năng kết nối các thông tin rải rác đó.

  • NIAH (Bài kiểm tra độ chính xác): Đặt một sự thật có thể truy xuất tại độ sâu được kiểm soát trong ngữ cảnh dài. SubQ 1.1 Small đạt điểm gần như hoàn hảo ở mức 1M, 2M, 6M và 12M token. Mô hình chủ yếu được huấn luyện ở mức 1M token nhưng khả năng truy xuất vẫn giữ ở mức gần hoàn hảo ở độ dài gấp 12 lần, dù nén chú ý chỉ còn 0,13% mối quan hệ.
  • RULER (Bài kiểm tra khả năng): Bao gồm 13 tác vụ vượt qua việc tra cứu sự thật đơn lẻ, bao gồm theo dõi biến đa bước, trích xuất tần số và tổng hợp trên toàn bộ ngữ cảnh. SubQ 1.1 Small đạt 99,12% ở mức 128K.

Kiến thức chung và Suy luận

SubQ 1.1 Small cân bằng tối ưu hóa ngữ cảnh dài với khả năng suy luận chung mà không phải đánh đổi.

  • GPQA Diamond (Khoa học cấp sau đại học): Đạt 85,4%, ngang bằng với các mô hình hàng đầu tầm trung và vượt xa các mô hình nhỏ hơn.
  • LiveCodeBench (Lập trình cạnh tranh): Đạt 89,7% pass@4, rất gần với các mô hình tiên phong nhất.
  • AutomationBench Finance (Tài chính): Đạt 13%, đưa SubQ 1.1 Small gần với các mô hình mạnh nhất trên benchmark này.

Hiệu suất tính toán

SSA thay thế quá trình chú ý dày đặc O(n²) bằng công thức thưa học được mở rộng tuyến tính theo độ dài ngữ cảnh. Lợi thế của SSA so với chú ý dày đặc tăng lên khi độ dài ngữ cảnh tăng.

So sánh hiệu suất tính toánSo sánh hiệu suất tính toán

Tại 1 triệu token, SubQ yêu cầu ít tính toán hơn 64,5 lần so với chú ý dày đặc và chạy nhanh hơn 56 lần so với FlashAttention-2 trên một lớp chú ý duy nhất. Trong thực tế, điều này thay đổi hoàn toàn kinh tế của việc huấn luyện và suy luận ngữ cảnh dài.

Các trường hợp sử dụng

SubQ được thiết kế cho các khối lượng công việc đòi hỏi suy luận trên thông tin được phân bổ trên toàn bộ dữ liệu mà không cần chia nhỏ:

  • Phân tích tài chính và thẩm định chi tiết: Các hồ sơ, báo cáo thu nhập, hợp đồng và hồ sơ nội bộ chỉ có ý nghĩa khi được kết hợp với nhau. SubQ suy luận trên toàn bộ bộ sưu tập thay vì tóm tắt từng tài liệu một cách riêng lẻ.
  • Pháp lý và hợp đồng: Một hợp đồng có thể định nghĩa một thuật ngữ ở trang 2, giới hạn nó ở trang 12 và đưa ra ngoại lệ ở trang 46. Các phương pháp truy xuất thông thường tìm thấy câu nhưng mất đi các mối quan hệ. SubQ nắm giữ toàn bộ tài liệu và suy luận trực tiếp trên nó.
  • Kỹ thuật phần mềm: Các cơ sở mã phân tán logic qua các tệp, mô-đun và phụ thuộc theo cách mà các mô hình ngữ cảnh ngắn không thể nắm giữ cùng lúc. SubQ tải toàn bộ kho lưu trữ vào một cửa sổ ngữ cảnh duy nhất, cho phép suy luận cấp kiến trúc, tái cấu trúc đa tệp và theo dõi phụ thuộc trong một lần chạy.

Kế hoạch tiếp theo

Subquadratic sẽ bắt đầu triển khai với nhóm đối tác thiết kế đầu tiên trong vài tuần tới, sau đó mở rộng triển khai trong quý và ra mắt mô hình rộng rãi vào cuối năm.

Chia sẻ:FacebookX
Nội dung tổng hợp bằng AI, mang tính tham khảo. Xem bài gốc ↗