Tối ưu hóa AI: Mua bán KV Cache để cắt giảm chi phí tính toán khổng lồ

Một bài nghiên cứu mới đề xuất cơ chế chia sẻ và bán KV cache giữa các tác nhân AI để loại bỏ việc tính toán lặp lại lãng phí. Phương pháp này giúp tiết kiệm tới 50 lần chi phí tính toán mà không làm giảm độ chính xác, hứa hẹn tạo ra một mạng lưới phân phối cache mới cho trí tuệ nhân tạo.

Trong thế giới trí tuệ nhân tạo hiện nay, hàng triệu tác nhân AI đang thực hiện một hành động lãng phí đáng kinh ngạc: mỗi khi đọc một tài liệu, chúng đều tính toán lại từ đầu. Mỗi tác nhân chạy lại bước tiền xử lý (prefill) — bước tốn nhiều tài nguyên tính toán nhất của một mô hình lớn — trên cùng một đoạn văn bản, chỉ để xây dựng một bộ nhớ đệm key-value (KV cache) giống hệt nhau.

Một nghiên cứu mới mang tên "Can I Buy Your KV Cache?" đã đưa ra một giải pháp đơn giản nhưng đầy tiềm năng: hãy tính toán nó một lần duy nhất. Theo đó, nhà xuất bản sẽ tính toán trước KV cache cho một tài liệu, và các tác nhân khác có thể mua quyền tải cache này để bỏ qua bước prefill.

Cơ chế hoạt động và hiệu quả

Giải pháp này được chứng minh là hoạt động chính xác tuyệt đối về mặt token. Việc tải một KV cache đã tính toán sẵn và tiếp tục xử lý cho kết quả giống hệt như việc prefill từ đầu (tỷ lệ chính xác 24/24 token greedy và ở mức logits), không gây ra bất kỳ sự suy giảm nào về độ chính xác.

Trên mô hình Qwen3-4B, việc tái sử dụng cache rẻ hơn 9-50 lần về chi phí tính toán so với việc chạy prefill mới. Khoảng cách tiết kiệm này còn mở rộng hơn nữa theo độ dài của văn bản, bởi độ phức tạp của cơ chế chú ý (attention) trong prefill tăng theo bình phương của độ dài ($L^2$). Điều này có nghĩa là chỉ một lần tái sử dụng đã đủ để bù đắp chi phí tạo ra cache ban đầu.

Vấn đề lưu trữ và truyền tải

Tuy nhiên, thách thức lớn nhất không phải là tính toán mà là vị trí lưu trữ KV cache. Việc truyền tải (shipping) cache này thất bại vì dữ liệu KV gần như không thể nén được, khiến chi phí truyền dữ liệu cho mỗi lần tải còn cao hơn cả chi phí prefill mà nó dự định tiết kiệm.

Giải pháp đưa ra là lưu trữ cache trực tiếp tại phía nhà cung cấp (provider-side), hoạt động chính xác như cơ chế prompt-caching trong môi trường sản xuất hiện nay. Cách tiếp cận này loại bỏ hoàn toàn chi phí truyền tải dữ liệu.

Tiềm năng kinh tế khổng lồ

Phần thưởng của giải pháp này được đo bằng mức tiết kiệm chi phí tính toán thực tế. Nghi cứu chỉ ra rằng việc phục vụ một tài liệu nóng với 3.774 token cho 80 triệu tác nhân tốn khoảng 1,5 triệu USD để re-prefill, nhưng chỉ tốn khoảng 30.000 USD chi phí tính toán để tái sử dụng (ít hơn 49,7 lần).

Với mức phí đọc cache hiện tại khoảng 0,1 lần so với tính toán thông thường, người dùng vẫn được giảm giá 10 lần, trong khi nhà cung cấp vẫn có biên lợi nhuận rất lớn trong khoảng cách giữa 10x và mức tiết kiệm thực tế ~50x. Điều này có thể mang lại hàng triệu đô la lợi nhuận cho mỗi tài liệu phổ biến.

Nghi cứu kết luận bằng việc định hình khái niệm về một mạng lưới phân phối prefill dành riêng cho tác nhân AI (agent-native prefill CDN), đồng thời để mở việc nén KV cache không mất dữ liệu và lớp thanh toán chéo giữa các bên là những vấn đề cần giải quyết tiếp theo.