Subquadratic công bố kiến trúc SSA mới, mang lại cửa sổ ngữ cảnh 12 triệu token cho AI

Startup Subquadratic vừa ra mắt mô hình AI tiên tiến với khả năng xử lý tới 12 triệu token, vượt xa các giới hạn hiện tại nhờ kiến trúc Subquadratic Selective Attention (SSA). Công nghệ này giải quyết bài toán chi phí tính toán bậc hai, mang lại hiệu suất cao hơn và chi phí thấp hơn so với các mô hình hàng đầu từ OpenAI hay Anthropic.

Startup Subquadratic có trụ sở tại Miami đã gây chấn động làng công nghệ khi ra mắt mô hình AI đầu tiên sở hữu cửa sổ ngữ cảnh (context window) khổng lồ lên tới 12 triệu token. Đột phá này được thực hiện nhờ kiến trúc mới có tên Subquadratic Selective Attention (SSA), hứa hẹn giải quyết triệt để vấn đề về chi phí tính toán đang kìm hãm các mô hình Transformer hiện đại.

Màn hình giới thiệu kiến trúc mới của Subquadratic

Trong bối cảnh các mô hình hàng đầu (frontier models) năm 2026 đều quảng cáo cửa sổ ngữ cảnh ít nhất 1 triệu token, thực tế cho thấy rất ít mô hình tận dụng hiệu quả toàn bộ dung lượng này. Trên thước đo MRCR v2, mô hình tốt nhất hiện nay là GPT-5.5 với điểm số 74,0%, trong khi các đối thủ như Claude Opus 4.7 chỉ đạt 32,2%. Nguyên nhân chính nằm ở cơ chế Attention của Transformer, nơi chi phí tính toán tăng theo cấp số nhân (quadratic) tương ứng với độ dài ngữ cảnh, khiến việc mở rộng dữ liệu đầu vào trở nên cực kỳ tốn kém.

Kiến trúc SSA: Tăng trưởng tuyến tính thay vì cấp số nhân

Subquadratic cho rằng kiến trúc SSA của họ là bước ngoặt thực sự, giúp tính toán và bộ nhớ tăng trưởng tuyến tính (linear) theo độ dài ngữ cảnh. Theo công bố, mô hình của Subquadratic hoạt động nhanh hơn 52 lần so với cơ chế Attention dày đặc (dense attention) ở mức 1 triệu token.

Đáng chú ý, mô hình này đạt điểm ấn tượng 92,1% trong bài kiểm tra truy xuất "tìm kim trong đống rơm" (needle-in-a-haystack) ở mức 12 triệu token — một độ dài mà chưa mô hình tiên phong nào tiếp cận được. Ngoài ra, nó đạt 83 điểm trên MRCR v2, vượt qua OpenAI 9 điểm, và ghi nhận 82,4% trên SWE-bench, đánh bại Anthropic Opus 4.6 (81,42%) và Google Gemini 3.1 Pro (80,6%).

So sánh với các giải pháp hiện có

Trước đây, nhiều nỗ lực đã được thực hiện để giải quyết bài toán chi phí Attention, chẳng hạn như cơ chế Attention thưa thớt theo mẫu cố định (fixed-pattern sparse attention) hay các mô hình không gian trạng thái (state-space models) như Mamba. Tuy nhiên, các phương pháp này thường phải đánh đổi tính chính xác hoặc hiệu quả.

Gần đây hơn, các kiến trúc lai (hybrid architectures) kết hợp các lớp hiệu quả với một vài lớp Attention dày đặc đã trở thành giải pháp thực dụng. Dù rẻ hơn ở mức ngắn (32K token), chúng vẫn gặp khó khăn khi mở rộng lên 10M token vì các lớp dày đặc vẫn phải thực hiện công việc O(n²).

Đồ so sánh hiệu suất của Subquadratic

Công nghệ SSA của Subquadratic khác biệt ở chỗ cơ chế lựa chọn phụ thuộc vào nội dung. Thay vì sử dụng một bộ lập chỉ mục (indexer) tốn kém như DeepSeek Sparse Attention (DSA), SSA cho phép mô hình tự chọn các vị trí quan trọng dựa trên nội dung thực tế của truy vấn và khóa, tránh được bẫy tính toán cấp số hai ngay trong bước lựa chọn.

"Sparse attention về cơ bản có nghĩa là thay vì xem xét mọi mối quan hệ có thể có giữa 1.000 từ như Transformer thường làm, bạn chỉ xử lý một phần thực sự quan trọng," Alex Whedon, CTO của Subquadratic, giải thích. "Với SSA, việc lựa chọn này thay đổi tùy theo từng đầu vào, mang lại lợi ích về quy mô (scaling-law) thay vì chỉ là lợi ích vô hướng."

Sản phẩm và kế hoạch tương lai

Subquadratic đang tung ra hai sản phẩm trong phiên bản beta: một API mở rộng toàn bộ cửa sổ ngữ cảnh 12M token và SubQ Code — một tác nhân dòng lệnh (CLI agent) được xây dựng trên cùng một mô hình này. Do chi phí cao, công ty chọn chạy trên các nền tảng đám mây mới (neoclouds) thay vì các siêu nhà cung cấp đám mây lớn.

Hiện tại, công ty chưa công bố mã nguồn (open-source) nhưng có kế hoạch cung cấp công cụ đào tạo để các doanh nghiệp thực hiện hậu đào tạo (post-training) riêng. Mục tiêu của họ là đạt cửa sổ ngữ cảnh 50 triệu token vào quý 4 năm nay.

Tuy nhiên, vẫn còn những lưu ý. Mô hình hiện tại "nhỏ hơn nhiều so với các phòng lab lớn", và các bài kiểm tra chỉ được chạy một lần do chi phí suy luận (inference) cao. Cũng có một bài học cảnh tỉnh từ trường hợp của Magic.dev, từng công bố cửa sổ 100M token vào năm 2024 nhưng đến nay vẫn chưa có bằng chứng công khai về việc sử dụng rộng rãi.

Với 29 triệu USD vốn huy động và định giá 500 triệu USD, Subquadratic đang đặt cược lớn vào việc kiến trúc SSA sẽ thay đổi cuộc chơi AI, nhưng cộng đồng kỹ thuật vẫn đang chờ đợi sự kiểm chứng thực tế trong thời gian tới.

Subquadratic công bố kiến trúc SSA mới, mang lại cửa sổ ngữ cảnh 12 triệu token cho AI

Kiến trúc SSA: Tăng trưởng tuyến tính thay vì cấp số nhân

So sánh với các giải pháp hiện có

Sản phẩm và kế hoạch tương lai

Bài viết liên quan