Squeezr: Giải pháp cứu cánh cho lập trình viên lãng phí AI Token mỗi ngày

Sử dụng các công cụ lập trình AI hàng ngày như Claude Code và Codex có thể tiêu tốn một lượng lớn tokens do ngữ cảnh (context) liên tục tăng lên. Bài viết này giới thiệu Squeezr, một công cụ HTTP proxy cục bộ giúp nén và tối ưu hóa toàn bộ lịch sử trò chuyện, giúp tiết kiệm tới 89% chi phí tokens mà không làm giảm chất lượng câu trả lời của AI.

Tôi đã sử dụng Claude Code và Codex hàng ngày trong nhiều tháng qua. Đây là những trong những công cụ lập trình tốt nhất mà tôi từng thử nghiệm. Tuy nhiên, có một điều mà không ai cảnh báo bạn khi mới bắt đầu: ngữ cảnh (context) sẽ cạn rất nhanh và chi phí tăng theo cấp số nhân.

Vấn đề thực sự không nằm ở tin nhắn bạn đang gửi

Khi bạn đã gửi 50 tin nhắn trong một phiên làm việc và tiếp tục gửi tin nhắn thứ 51, dòng lệnh (CLI) của bạn không chỉ gửi đi tin nhắn đó thôi. Nó gửi toàn bộ 51 tin nhắn. Cả cuộc hội thoại, từ đầu đến cuối, với mọi yêu cầu đơn lẻ.

M不仅如此, hệ thống prompt (system prompt) của Claude Code dài 13.000 ký tự — cũng được gửi kèm theo mỗi tin nhắn. Mọi kết quả lệnh mà AI đã chạy, mọi tệp mà nó đã đọc, mọi tìm kiếm mà nó thực hiện — tất cả đều nằm trong lịch sử và được gửi đi đi gửi lại nhiều lần.

Trong một phiên làm việc thực tế, tin nhắn thứ 51 có thể kết thúc bằng việc gửi tới 85.000 ký tự tới API. Chỉ cho một tin nhắn duy nhất.

Tại sao các công cụ hiện tại không giải quyết được vấn đề này

Có một công cụ rất phổ biến cho vấn đề này: RTK (Rust Token Killer), với hơn 16.000 sao trên GitHub. Nó làm đúng những gì được hứa hẹn: hoạt động như một vỏ bọc shell (shell wrapper) chặn đầu ra chuẩn (stdout) của từng lệnh trước khi nó đi vào ngữ cảnh. Khi AI chạy lệnh git diff, RTK sẽ lọc đầu ra trước khi kết quả được lưu vào lịch sử.

Vấn đề không nằm ở RTK — mà nằm ở phạm vi của cách tiếp cận này.

Một khi kết quả của lệnh đã đi vào lịch sử, RTK không thể chạm vào nó nữa. Và ở tin nhắn thứ 51, 50 tin nhắn trước đó — với tất cả kết quả, nhật ký (logs), đọc tệp của chúng — được gửi lại nguyên vẹn cho API. RTK không có khả năng nhìn thấy lịch sử tích lũy đó.

Con số nói lên tất cả: trong một phiên 50 lượt với tổng cộng 150.000 tokens, RTK chỉ tiết kiệm khoảng 1,6%. Nó chỉ có thể tác động đến lượt hiện tại.

Tôi đã xây dựng gì?

Squeezr là một HTTP proxy cục bộ chặn từng yêu cầu trước khi nó tới được API. Nó hoạt động ở một cấp độ khác so với RTK: không phải trên stdout của một lệnh đơn lẻ, mà trên yêu cầu HTTP hoàn chỉnh — nó nhìn thấy và nén toàn bộ cuộc hội thoại mỗi lần gửi.

Hệ thống prompt được nén một lần và lưu vào bộ nhớ đệm (cache). Từ 13.000 ký tự giảm xuống chỉ còn khoảng 650. Ở yêu cầu tiếp theo và yêu cầu sau nữa, nó được lấy trực tiếp từ cache — không cần nén lại.

Kết quả lệnh và công cụ được lọc trước khi chúng tích lũy trong lịch sử. Khi AI chạy npm test và nhận lại 200 dòng kết quả, Squeezr chỉ trích xuất các bài kiểm tra thất bại. Khi nó đọc một tệp, nó giữ lại phần liên quan. Khi nó tìm kiếm, nó nén kết quả. Các lệnh Git, Docker, kubectl, trình biên dịch, công cụ linters (linting tools) — mỗi loại có mẫu riêng biệt. Và không giống như RTK, Squeezr cũng nén các lần đọc tệp và kết quả tìm kiếm, không chỉ là đầu ra của bash.

Lịch sử đầy đủ được nén với mỗi yêu cầu. Các tin nhắn cũ hơn được tóm tắt tự động. Tin nhắn thứ 51 không gửi lại 50 cuộc hội thoại đầy đủ — nó gửi lại 48 tin nhắn đã nén và 3 tin nhắn cuối cùng nguyên vẹn.

Kết quả trên cùng ví dụ 85.000 ký tự kia: 25.000 ký tự. Giảm 71% trên mỗi tin nhắn. Trong các phiên dài, tiết kiệm tích lũy đạt tới 89%.

Không làm giảm chất lượng

Quá trình nén là không mất mát (lossless). Tất cả nội dung gốc được lưu trữ cục bộ. Nếu AI cần thêm chi tiết từ một thứ đã bị nén, nó gọi squeezr_expand() và nhận lại bản gốc đầy đủ ngay lập tức — không tốn chi phí, không có cuộc gọi API nào cả.

AI nhận được cùng một thông tin. Mà không có phần thừa.

Nén AI sử dụng model rẻ nhất mà bạn đã có — không chi phí phát sinh

Khi một khối quá dài để sử dụng các mẫu xác định (deterministic patterns), Squeezr sử dụng một mô hình AI để tóm tắt nó — luôn là model rẻ nhất từ nhà cung cấp mà bạn đang sử dụng: Haiku nếu bạn dùng Claude, GPT-4o-mini nếu bạn dùng Codex, Flash nếu bạn dùng Gemini. Và nếu bạn làm việc với các mô hình cục bộ thông qua Ollama hoặc LM Studio, nó cũng sử dụng các mô hình cục bộ đó. Không cần API key bổ sung, không có chi phí nào khác.

Thay đổi thực tế

Các phiên làm việc kéo dài hơn nhiều. AI giữ được liên kết vì ngữ cảnh không bị lấp đầy bởi nhiễu. Và chi phí tiêu thụ token đã giảm đáng kể:

squeezr gain

  Squeezr — Token Savings
-----------------------------------
  Requests processed:      33
  Saved chars:          6,987,655
  Total tokens saved:   1,912,840
  Tool saving:            94,67%
  Context reduction:       78%
-----------------------------------
  By Tool                                 
  Read (161x): -83.8%                    
  WebFetch (25x): -60%                   
  Grep (15x): -66.4%

Lệnh squeezr discover sẽ hiển thị chính xác mẫu nào đang giúp bạn tiết kiệm nhiều nhất trong quy trình làm việc cụ thể của bạn. Với tôi, kết quả vitest và git diff mang lại lợi ích lớn nhất.

Cách dùng thử

  npm install -g squeezr-ai
  squeezr setup
  squeezr start

Công cụ hoạt động hôm nay với Claude Code, Codex, Aider và Gemini CLI. Hỗ trợ Cursor sẽ sớm ra mắt.

Mã nguồn mở theo giấy phép MIT. Truy cập tại https://squeezr.es.

Nếu bạn dùng thử, squeezr gain sẽ cho bạn biết chính xác bạn đang tiết kiệm được bao nhiêu.