Startup Subquadratic tuyên bố đột phá AI hiệu quả 1.000 lần: Hy vọng hay Hype?

Startup Subquadratic vừa công bố mô hình ngôn ngữ lớn (LLM) đầu tiên sử dụng kiến trúc "subquadratic", hứa hẹn giải quyết bài toán chi phí tính toán bậc hai và mang lại hiệu quả cao gấp 1.000 lần so với các mô hình hiện tại. Tuy nhiên, cộng đồng nghiên cứu AI đang tỏ ra hoài nghi sâu sắc về các tuyên bố này và yêu cầu bằng chứng kiểm chứng độc lập.

Một startup ít tên tuổi tại Miami có tên Subquadratic vừa mới bước ra khỏi bóng tối (stealth mode) vào thứ Ba với một tuyên bố đầy tham vọng: họ đã xây dựng mô hình ngôn ngữ lớn (LLM) đầu tiên thoát hoàn toàn khỏi ràng buộc toán học đã định hình — và hạn chế — mọi hệ thống AI lớn kể từ năm 2017.

Công ty khẳng định mô hình đầu tiên của họ, SubQ 1M-Preview, là LLM đầu tiên được xây dựng trên kiến trúc "subquadratic" hoàn toàn — nơi sức mạnh tính toán tăng tuyến tính theo độ dài ngữ cảnh. Nếu tuyên bố này đúng, đây sẽ là một điểm ngoặt thực sự trong cách các hệ thống AI mở rộng quy mô. Subquadratic cho biết ở mức 12 triệu token, kiến trúc của họ giảm chi phí tính toán attention gần 1.000 lần so với các mô hình tiên phong khác. Một con số ấn tượng, nhưng nếu được xác thực độc lập, nó sẽ vượt xa các lợi ích hiệu quả của bất kỳ phương pháp hiện có nào.

Công ty cũng đang tung ra ba sản phẩm trong bản beta riêng tư: một API mở toàn bộ cửa sổ ngữ cảnh, một tác nhân viết mã dòng lệnh gọi là SubQ Code và một công cụ tìm kiếm tên SubQ Search. Họ đã huy động được 29 triệu USD vốn vòng hạt giống từ các nhà đầu tư bao gồm đồng sáng lập Tinder Justin Mateen, cựu đối tác SoftBank Vision Fund Javier Villamizar, và các nhà đầu tư sớm của Anthropic, OpenAI, Stripe và Brex. Theo The New Stack, vòng gọi vốn này định giá công ty ở mức 500 triệu USD.

Vấn đề tăng trưởng bậc hai đã định hình kinh tế của toàn ngành AI

Mọi mô hình AI dựa trên Transformer — bao gồm hầu hết các hệ thống tiên phong từ OpenAI, Anthropic, Google và những công ty khác — đều dựa vào một hoạt động gọi là "attention" (sự chú ý). Mỗi token được so sánh với mọi token khác, do đó khi đầu vào tăng lên, số lượng tương tác — và sức mạnh tính toán cần thiết để xử lý chúng — tăng theo cấp số nhân bậc hai. Nói một cách đơn giản: nếu gấp đôi kích thước đầu vào, chi phí không chỉ tăng gấp đôi mà tăng gấp bốn.

Mối quan hệ này đã định hình những gì được xây dựng và những gì không. Tiêu chuẩn ngành hiện nay là 128.000 token cho nhiều mô hình AI và lên tới 1 triệu token cho các mô hình đám mây tiên phong như Claude Sonnet 4.7 và Gemini 3.1 Pro.

Ngay cả ở những kích thước đó, chi phí xử lý các đầu vào dài trở nên cực kỳ đắt đỏ. Ngành công nghiệp đã xây dựng một chồng các giải pháp thay thế phức tạp để đối phó. Các hệ thống RAG sử dụng công cụ tìm kiếm để kéo về một số lượng nhỏ kết quả liên quan trước khi gửi chúng cho mô hình, vì việc gửi toàn bộ kho dữ liệu là không khả thi. Các nhà phát triển xếp chồng các pipeline truy xuất, chiến lược phân đoạn (chunking), kỹ thuật prompt và hệ thống điều phối đa tác nhân lên trên các mô hình — tất cả都是为了绕 qua ràng buộc cơ bản rằng mô hình không thể xử lý hiệu quả mọi thứ cùng một lúc.

Giải pháp của Subquadratic: Ngừng làm những phép toán không quan trọng

Cách tiếp cận của công ty, gọi là Subquadratic Sparse Attention (SSA), được xây dựng trên một tiền đề đơn giản: hầu hết các phép so sánh token-to-token trong attention tiêu chuẩn là lãng phí tài nguyên tính toán. Thay vì so sánh mọi token với mọi token khác, SSA học cách xác định phép so sánh nào thực sự quan trọng và chỉ tính toán attention trên các vị trí đó. Quan trọng hơn, việc lựa chọn này phụ thuộc vào nội dung — mô hình quyết định nơi cần nhìn dựa trên ý nghĩa, không phải trên các mẫu vị trí cố định. Điều này cho phép nó truy xuất thông tin cụ thể từ các vị trí tùy ý trên một ngữ cảnh rất dài mà không phải chịu "thuế bậc hai".

Lợi ích thực tế tỷ lệ thuận với độ dài ngữ cảnh — đúng là nghịch đảo của vấn đề mà họ đang cố gắng giải quyết. Theo blog kỹ thuật của công ty, SSA đạt tốc độ prefill nhanh hơn 7,2 lần so với attention dày đặc ở 128.000 token, tăng lên 52,2 lần ở 1 triệu token.

Cộng đồng nghiên cứu AI hoài nghi: "Đột phá thực sự" hay "AI Theranos"?

Trong vài giờ sau thông báo, cộng đồng nghiên cứu AI đã nổ ra một cuộc tranh luận xoay quanh một câu hỏi duy nhất: Điều này có thật không?

Nhà bình luận AI Dan McAteer đã nắm bắt tâm trạng hai cực này trong một bài đăng được chia sẻ rộng rãi: "SubQ hoặc là đột phá lớn nhất kể từ Transformer... hoặc là AI Theranos." Sự so sánh với công ty lừa đảo xét nghiệm máu nổi tiếng có thể không công bằng, nhưng nó phản ánh quy mô của các tuyên bố đang được đưa ra.

Các nhà hoài nghi tập trung vào một số điểm nhạy cảm. Kỹ sư AI nổi tiếng Will Depue ban đầu lưu ý rằng SubQ "gần như chắc chắn là một bản fine-tune attention thưa của Kimi hoặc DeepSeek," đề cập đến các mô hình mã nguồn mở hiện có. CTO Alexander Whedon đã xác nhận điều này trên X, viết rằng công ty "sử dụng trọng số từ các mô hình mã nguồn mở làm điểm khởi đầu."

Depue sau đó đã nâng cao mức chỉ trích, viết rằng các tuyên bố về tỷ lệ O(n) và các con số tăng tốc "dường như không khớp nhau" và gọi cách truyền thông là "hoặc cực kỳ kém truyền đạt hoặc đơn giản là không có thật."

Những người khác đặt ra câu hỏi cấu trúc. Một nhà phát triển lưu ý rằng nếu SubQ thực sự giảm tính toán 1.000 lần và chi phí thấp hơn 5% so với Opus, công ty sẽ không gặp khó khăn gì trong việc phục vụ nó ở quy mô lớn — vậy tại sao lại hạn chế quyền truy cập thông qua chương trình truy cập sớm? Nhà phát triển Stepan Goncharov gọi các điểm chuẩn là "rất thú vị nhưng được chọn lọc kỹ (cherry-picked)."

Tuy nhiên, không phải ai cũng bác bỏ. Nhà nghiên cứu AI John Rysana đã phản bác lại cách so sánh với Theranos, viết rằng công việc này "chỉ là subquadratic attention được thực hiện tốt, điều này rất có ý nghĩa cho các khối lượng công việc ngữ cảnh dài," và rằng "khả năng nó là đồ nhảm là cực kỳ thấp."

Thử thách thực sự: Bằng chứng độc lập

Gạt bỏ ngôn ngữ tiếp thị và drama trên mạng xã hội, câu hỏi cơ bản mà Subquadratic đặt ra thực sự rất quan trọng: Các hệ thống AI có thể thoát khỏi tỷ lệ tăng bậc hai mà không làm giảm chất lượng không?

Nếu attention có thể được tạo ra tuyến tính thực sự mà không làm giảm khả năng truy xuất và suy luận, kinh tế của AI sẽ thay đổi căn bản. Các ứng dụng doanh nghiệp hiện nay yêu cầu các pipeline truy xuất phức tạp — xử lý toàn bộ cơ sở mã, hợp đồng, hồ sơ pháp lý, hồ sơ y tế — sẽ trở thành các thao tác đơn lẻ. Hàng tỷ đô la hiện được chi cho cơ sở hạ tầng RAG, quản lý ngữ cảnh và điều phối tác nhân sẽ trở nên dư thừa một phần.

Mọi mô hình tiên phong vào năm 2026 đều quảng cáo cửa sổ ngữ cảnh ít nhất một triệu token, nhưng gần như không có mô hình nào thực sự tốt trong việc sử dụng tất cả thông tin đó. Khoảng cách giữa cửa sổ ngữ cảnh danh nghĩa và cửa sổ chức năng — giữa những gì mô hình chấp nhận và những gì nó suy luận một cách đáng tin cậy — vẫn là một trong những vấn đề chưa được giải quyết quan trọng nhất trong AI. Subquadratic nói rằng họ đã lấp đầy khoảng cách đó. Nếu đánh giá độc lập xác nhận tuyên bố này, những tác động sẽ lan xa vượt xa định giá của một startup duy nhất.