Mua bán KV Cache: Giải pháp tối ưu chi phí cho các tác nhân AI trong tương lai

Một nghiên cứu mới đề xuất mô hình thị trường cho phép các nhà xuất bản tính toán trước KV Cache để bán cho các tác nhân AI, giúp loại bỏ sự lãng phí tài nguyên tính toán. Phương pháp này chứng minh khả năng tiết kiệm chi phí lên tới 50 lần mà không làm giảm độ chính xác của mô hình.

Hiện nay, trên toàn thế giới, hàng triệu tác nhân AI đang thực hiện một hành động lãng phí một cách kỳ lạ: để đọc một tài liệu, mỗi tác nhân đều tính toán lại nó từ đầu. Mỗi tác nhân đều chạy lại bước "prefill" — bước tốn kém nhất về tài nguyên tính toán của một mô hình lớn — trên cùng một đoạn văn bản, chỉ để xây dựng một bộ nhớ đệm Key-Value (KV Cache) giống hệt như những tác nhân trước đó đã tạo ra. Cùng một câu trả lời được tính toán hàng triệu lần.

Một đề xuất mới từ nghiên cứu của Luoyuan Zhang mang đến một giải pháp đơn giản đến mức có thể gây sốc: Hãy tính toán nó một lần duy nhất. Để một nhà xuất bản tính toán trước KV Cache cho tài liệu của mình, và để mọi tác nhân khác mua quyền tải cache này để bỏ qua bước prefill.

Cách thức hoạt động và hiệu năng

Phương pháp này đã được chứng minh là hoạt động hiệu quả và đạt độ chính xác tuyệt đối về mặt token (token-exact). Việc tải một KV Cache đã tính toán trước và tiếp tục xử lý cho kết quả tương đồng hoàn toàn với việc tính toán từ đầu (24/24 greedy tokens và ở mức logits), không gây ra bất kỳ chi phí nào về độ chính xác.

Trên mô hình Qwen3-4B, việc tái sử dụng KV Cache rẻ hơn từ 9 đến 50 lần về mặt tính toán so với việc chạy prefill. Khoảng cách này còn mở rộng hơn nữa với độ dài của văn bản, vì sự chú ý (attention) trong prefill tăng theo bình phương của độ dài ($L^2$). Do đó, chỉ một lần tái sử dụng đã đủ để bù đắp chi phí tính toán ban đầu.

Thách thức về hạ tầng và chi phí

Tuy nhiên, yếu tố quan trọng nhất nằm ở vị trí lưu trữ KV Cache. Việc chuyển tải (shipping) cache này cho người dùng thất bại do KV Cache gần như không thể nén, khiến chi phí truyền dữ liệu ra ngoài (egress) cho mỗi lần tải còn cao hơn cả chi phí prefill mà nó giúp tiết kiệm.

Giải pháp được đề xuất là lưu trữ phía nhà cung cấp (provider-side), hoạt động chính xác như cơ chế prompt-caching trong môi trường sản xuất hiện nay. Cách tiếp cận này loại bỏ hoàn toàn chi phí egress.

Tiềm năng kinh tế khổng lồ

Giá trị của giải pháp này được quyết định bởi số tiền tiết kiệm được từ tài nguyên tính toán. Ví dụ, việc phục vụ một tài liệu nóng dài 3774 token cho 80 triệu tác nhân sẽ tốn khoảng 1,5 triệu USD để tính toán lại (re-prefill), nhưng chỉ tốn khoảng 30.000 USD nếu tái sử dụng tính toán (ít hơn 49,7 lần).

Mức phí đọc cache thông thường (0.1x cache-read tariff) mà các API tính phí vẫn mang lại cho người dùng mức giảm giá 10 lần, trong khi vẫn nằm trong giới hạn chi phí đã đo lường. Như vậy, mức giảm giá 10 lần chỉ là mức sàn, trong khi lợi ích thực tế về tính toán là ~50 lần tạo ra biên lợi nhuận cho nhà cung cấp: hàng triệu USD cho mỗi tài liệu phổ biến.

Nghiên cứu này định hình khái niệm về một mạng lưới phân phối nội dung (CDN) prefill dành riêng cho tác nhân AI, đồng thời để ngỏ các vấn đề mở bao gồm nén KV Cache không mất dữ liệu và một lớp thanh toán chéo giữa các bên.