Nghiên cứu mới giúp nén ngữ cảnh LLM 16 lần mà không làm giảm độ chính xác

Một nhóm nghiên cứu từ các trường đại học hàng đầu đã giới thiệu Latent Context Language Models (LCLMs), giúp nén ngữ cảnh đầu vào của LLM lên tới 16 lần mà không làm giảm đáng kể độ chính xác. Phương pháp này giải quyết vấn đề nghẽn cổ chai về tính toán và bộ nhớ, giúp tăng tốc độ xử lý lên 8,8 lần so với các phương pháp truyền thống. Mô hình mới này đã được mã nguồn mở và có thể tích hợp trực tiếp vào hệ thống hiện có.

Các cửa sổ ngữ cảnh (context windows) đang trở thành nút thắt tính toán trong các ứng dụng AI hiện đại. Khi một tác nhân AI hoạt động lâu hơn, số lượng token tích tụ từ các tài liệu truy xuất, dấu vết suy luận và lịch sử trò chuyện sẽ ngày càng lớn, đòi hỏi nhiều bộ nhớ và sức mạnh tính toán hơn. Hầu hết các giải pháp hiện tại đều làm giảm độ chính xác của mô hình, yêu cầu tải toàn bộ ngữ cảnh trước khi bắt đầu nén, hoặc không tạo ra tăng tốc thực tế trên cơ sở hạ tầng phục vụ tiêu chuẩn.

Một nhóm nghiên cứu từ NYU, Columbia, Princeton, Đại học Maryland, Harvard và Phòng thí nghiệm Quốc gia Lawrence Livermore đã công bố một bài báo đề xuất giải pháp mới mẻ cho vấn đề này. Các nhà nghiên cứu giới thiệu khái niệm Latent Context Language Models (LCLMs) — một họ mô hình nén kiểu encoder-decoder giúp nén ngữ cảnh đầu vào trước khi nó đến bộ giải mã (decoder). Các mô hình này đã được mã nguồn mở trên HuggingFace.

Khác với các phương pháp nén KV cache — phương pháp phổ biến hiện nay vốn vẫn phải hiện thực hóa toàn bộ KV cache trước khi loại bỏ các mục nhập — LCLM nén chuỗi token đầu vào ngay trước giai đoạn prefill của decoder. Điều này có nghĩa là tỷ lệ nén cao hơn sẽ trực tiếp giảm thiểu tính toán và bộ nhớ ở phía decoder. Báo cáo cho thấy LCLM với tỷ lệ nén 16 lần tạo ra đầu ra nhanh hơn 8,8 lần so với cơ sở KV cache trên điểm chuẩn RULER về ngữ cảnh dài.

"Những ngữ cảnh ngày càng phình to này chiếm dụng bộ nhớ và tính toán, đang trở thành nút thắt cho LLM," Micah Goldblum, cố vấn chính của dự án và nhà nghiên cứu tại Đại học Columbia, chia sẻ với VentureBeat. "Mục tiêu của chúng tôi là đào tạo các mô hình ngôn ngữ end-to-end có thể xử lý các ngữ cảnh rất dài một cách hiệu quả và chính xác. Nếu bạn tạo ra được một mô hình ngôn ngữ như vậy, mọi thứ sẽ trở nên rẻ hơn và nhanh hơn."

Khả năng của LCLM

LCLM cho phép các mô hình xử lý các ngữ cảnh dài hơn nhiều so với mức khả thi về mặt thực tế trước đây, chỉ với một phần nhỏ chi phí bộ nhớ và tính toán, mà không gặp phải sự suy giảm độ chính xác — yếu tố khiến hầu hết các phương pháp nén khác trở nên kém hấp dẫn khi đưa vào sản xuất.

Ở mức nén 4 lần, bài báo báo cáo độ chính xác đạt 91,76% trên điểm chuẩn RULER, so với 94,41% khi không có nén. Đây là mức giảm dưới 3 điểm khi cắt giảm ngữ cảnh xuống còn một phần kích thước gốc. Ở mức nén 16 lần — nơi 93,75% token đầu vào bị loại bỏ — độ chính xác giảm xuống 75,06%. Mọi phương pháp KV cache được thử nghiệm ở cùng tỷ lệ nén đều có điểm số thấp hơn.

Những cải thiện này cũng giữ vững trên các đầu vào ngắn hơn. Trong bài toán toán học GSM8K, nơi toàn bộ câu lệnh (prompt) được nén thay vì chỉ các tài liệu truy xuất, LCLM đã đạt điểm số cao hơn mọi phương pháp khác được thử nghiệm bất kể tỷ lệ nén.

Cấu trúc và quá trình xây dựng

Về mặt kiến trúc, mô hình kết hợp một bộ mã hóa (encoder) 0,6 tỷ tham số với một bộ giải mã (decoder) 4 tỷ tham số. Bộ mã hóa nén các khối token đầu vào thành các chuỗi nhúng tiềm ẩn (latent embeddings) ngắn hơn. Bộ giải mã sẽ xử lý các chuỗi này thay cho các token gốc. Quá trình đào tạo được thực hiện trên hơn 350 tỷ token.

Công thức đào tạo kết hợp ba loại dữ liệu:

Dữ liệu tiền đào tạo liên tục (continual pre-training) với các đoạn nén và không nén xen kẽ nhau.
Dữ liệu tinh chỉnh có giám sát (supervised fine-tuning) bao gồm các nhiệm vụ suy luận và ngữ cảnh dài.
Một nhiệm vụ tái tạo phụ trợ (auxiliary reconstruction task) thúc đẩy bộ mã hóa giữ lại các chi tiết tinh tế.

Sự kết hợp này giải quyết sự đánh đổi đã hạn chế các công việc nén trước đây, nơi việc giữ lại độ chính xác tái tạo thường phải đánh đổi bằng hiệu suất nhiệm vụ chung.

Một quá trình tìm kiếm kiến trúc đã xác định cấu hình tối ưu. Bài báo nhận thấy rằng việc mở rộng quy mô bộ giải mã quan trọng hơn việc mở rộng quy mô bộ mã hóa.

Vị trí trong hệ thống AI Agent

LCLM không phải là một khái niệm nghiên cứu trừu tượng. Nó được thiết kế để hoạt động với các hệ thống hiện có. "Bạn có thể đơn giản thay thế LCLM cho bất kỳ LLM hiện có nào," Goldblum nói. "Bất cứ khi nào bạn truy xuất dữ liệu như tài liệu và muốn đổ vào ngữ cảnh của mô hình, chỉ cần chạy những tài liệu đó qua bộ nén của LCLM trước."

Ông lưu ý rằng trong bài báo nghiên cứu, nhóm đã chứng minh cách xây dựng các tác nhân có thể giải nén có chọn lọc các văn bản hữu ích.

"Hãy tưởng tượng điều này giống như một con người lướt qua nội dung trước khi phóng to vào các chi tiết liên quan," Goldblum nói.

Tuy nhiên, Goldblum cũng cảnh báo rằng các nhóm tích hợp phương pháp này vào các quy trình agentic hiện có sẽ cần tinh chỉnh hệ thống RAG của họ tương ứng.

"Chúng tôi cũng chưa làm việc về việc nén trực tuyến các dấu vết suy luận (reasoning traces)," ông nói. "Cách tiếp cận ngây thơ là chỉ thỉnh thoảng nén dấu vết trong khi tạo ra nó có thể hoạt động, nhưng điều đó vẫn chưa được xác định."

Tác động đối với doanh nghiệp

Các cửa sổ ngữ cảnh đang phát triển nhanh hơn khả năng theo kịp của cơ sở hạ tầng suy luận, và các doanh nghiệp đang phải chi tiền để giải quyết vấn đề này. Dữ liệu khảo sát VB Pulse Q1 2026 từ các tổ chức có hơn 100 nhân viên cho thấy ý định áp dụng kết hợp truy xuất (hybrid retrieval) đã tăng gấp ba lần từ 10,3% vào tháng 1 lên 33,3% vào tháng 3. Việc tối ưu hóa truy xuất đã vượt qua đánh giá để trở thành ưu tiên đầu tư hàng đầu vào tháng 3, đạt 28,9% số người trả lời đủ điều kiện.

Ba điểm nổi bật cho các đội ngũ đang đánh giá tính phù hợp khi đưa vào sản xuất:

Chi phí suy luận tỷ lệ thuận với độ dài ngữ cảnh: Với 1 triệu token, suy luận không nén bằng các phương pháp KV cache tiêu chuẩn sẽ hết bộ nhớ trên một GPU H200 duy nhất. Bài báo báo cáo LCLM ở mức nén 16 lần vẫn nằm trong giới hạn bộ nhớ ở độ dài ngữ cảnh đó.
Tích hợp quy trình RAG cần tinh chỉnh: Các nhóm có quy trình RAG hiện tại sẽ cần xác thực hành vi nén so với các chỉ số chất lượng truy xuất của họ trước khi triển khai quy mô lớn.
Nén dấu vết suy luận chưa được giải quyết: Đối với các tác nhân chạy chuỗi suy luận dài, sự tăng trưởng ngữ cảnh từ dấu vết là một vấn đề riêng biệt với việc truy xuất tài liệu. Goldblum thừa nhận trực tiếp khoảng trống này: cách tiếp cận ngây thơ của việc nén định kỳ dấu vết có thể hoạt động nhưng chưa được kiểm chứng.

Các mô hình hiện có sẵn tại huggingface.co/latent-context và mã nguồn tại github.com/LeonLixyz/LCLM.

"Điều lớn nhất mà các kiến trúc của chúng tôi thực hiện là cung cấp cho mô hình của bạn quyền truy cập vào các ngữ cảnh lớn hơn nhiều, nhưng chúng cũng mở ra các cách tiếp cận đa quy mô nơi mô hình của bạn có thể lướt qua lượng văn bản hoặc mã khổng lồ siêu nhanh và sau đó chỉ phóng to và đọc kỹ một phần nhỏ văn bản hữu ích nhất," Goldblum kết luận.