Quản lý ngân sách Token trong dự án thực tế: Cách tôi duy trì chi phí AI dưới 50$/tháng

Trợ lý lập trình AI rất hữu ích nhưng cũng tốn kém nếu bạn không chú ý. Bài viết chia sẻ hệ thống giúp tác giả giảm chi phí từ 120$/tháng xuống dưới 50$ mà vẫn đảm bảo hiệu suất công việc, thông qua việc quản lý ngữ cảnh (context) và lựa chọn mô hình phù hợp.

Trợ lý lập trình AI vô cùng hữu ích. Nhưng nếu không để ý chi tiêu, chúng cũng có thể trở nên khá đắt đỏ. Trước khi bắt đầu theo dõi chi tiêu, tôi từng tiêu tốn tới 120$/tháng. Giờ đây, tôi chỉ chi dưới 50$ cho cùng một kết quả đầu ra (thực tế là tốt hơn).

Đây là hệ thống quản lý của tôi.

Vấn đề: Những chi phí vô hình

Hầu hết các lập trình viên không theo dõi mức sử dụng token của AI. Họ dán code, lấy kết quả, rồi lại dán thêm code. Mỗi tương tác đều tốn tiền, nhưng vòng phản hồi bị trì hoãn — bạn chỉ thấy hóa đơn vào cuối tháng.

Yếu tố đẩy chi phí lên cao nhất không phải là các prompt. Đó là ngữ cảnh (context).

Một phiên lập trình AI điển hình sẽ bao gồm:

System prompt (lệnh hệ thống): ~500 tokens
Ngữ cảnh của bạn (tệp dự án, ví dụ): ~2.000-8.000 tokens
Câu hỏi thực tế của bạn: ~200 tokens
Phản hồi của AI: ~500-2.000 tokens

Cửa sổ ngữ cảnh đó chiếm 80% hóa đơn của bạn. Và phần lớn trong số đó là thông tin giống hệt nhau mà bạn gửi đi mỗi lần.

Hệ thống Ngân sách Token

Quy tắc 1: Đặt giới hạn hàng ngày

Tôi phân bổ ngân sách 2$/ngày cho trợ lý lập trình AI. Tương đương khoảng 50$/tháng nếu tính cả cuối tuần nghỉ ngơi. Khi chạm ngưỡng này, tôi sẽ lập trình mà không có AI trong phần còn lại của ngày. ( spoiler: Tôi vẫn rất năng suất).

Hầu hết các bảng điều khiển API đều cho phép bạn đặt giới hạn cứng. Hãy làm điều đó. Việc biết mình có ngân sách buộc bạn phải hình thành thói quen viết prompt tốt hơn.

Quy tắc 2: Đo lường Tỷ lệ Ngữ cảnh trên Đầu ra

Với mỗi lần tương tác AI, hãy ước lượng sơ bộ:

Context tokens (ngữ cảnh) gửi đi: ~4.000
Output tokens (đầu ra) hữu ích: ~300
Tỷ lệ: 13:1

Nếu tỷ lệ của bạn trên 10:1, bạn đang trả quá nhiều tiền cho ngữ cảnh. Hãy cắt giảm nó.

Mục tiêu của tôi: 5:1 hoặc tốt hơn. Với mỗi token ngữ cảnh tôi gửi, tôi muốn nhận lại ít nhất 1/5 token đầu ra hữu ích.

Quy tắc 3: Tối ưu hóa ngữ cảnh (Cache Context)

Thay vì dán toàn bộ ngữ cảnh dự án mỗi lần, hãy tạo một bộ công cụ ngữ cảnh (3-4 tệp nhỏ mô tả dự án của bạn) và tái sử dụng nó trên các phiên làm việc.

Chỉ riêng việc này đã giúp tôi cắt giảm 40% chi phí ngữ cảnh. Tôi đi từ việc gửi 6.000 token ngữ cảnh mỗi prompt xuống còn khoảng 1.500 token ngữ cảnh đã được viết trước và tối ưu hóa.

Quy tắc 4: Sử dụng Mô hình phù hợp cho công việc phù hợp

Không phải nhiệm vụ nào cũng cần GPT-4 hay Claude Opus. Đây là cây quyết định của tôi:

Nhiệm vụ	Mô hình	Tại sao
Tự động hoàn thành, boilerplate	Copilot / mô hình nhỏ	Nhanh, rẻ, đủ tốt
Unit test, định nghĩa kiểu (type definitions)	GPT-4o-mini / Haiku	Tác vụ rõ ràng, không cần suy luận
Logic phức tạp, kiến trúc	GPT-4 / Claude Sonnet	Đáng tiền vì độ chính xác
Gỡ lỗi sự cố production	Claude Opus / o1	Cần suy luận sâu, hiếm khi dùng

Tôi chỉ sử dụng các mô hình đắt tiền khoảng 2-3 lần mỗi ngày. Mọi thứ khác đều chạy trên các lựa chọn thay thế rẻ hơn.

Quy tắc 5: Dừng "thuế" lặp lại (Iteration Tax)

Mọi tin nhắn tiếp theo trong một cuộc trò chuyện đều bao gồm toàn bộ lịch sử trò chuyện. Tin nhắn 1 có giá X. Tin nhắn 5 sẽ có giá khoảng 5X do ngữ cảnh tích lũy.

Quy tắc của tôi: Nếu bạn đang ở lượt thứ 4 và vẫn chưa xong, hãy bắt đầu một cuộc trò chuyện mới với prompt tốt hơn. Nó rẻ hơn và thường cho ra kết quả tốt hơn.

Phân bổ chi phí hàng tháng

Dưới đây là cách số tiền 50$/tháng của tôi thực sự được phân bổ:

Copilot (phí cố định):          10$/tháng
API calls (GPT-4o-mini):        8$/tháng   (~60% tương tác)
API calls (Claude Sonnet):      18$/tháng  (~30% tương tác)
API calls (Opus/o1):             12$/tháng  (~10% tương tác)
Dự phòng (Buffer):              2$/tháng

Những việc tôi đã ngừng làm

Ngừng sử dụng AI cho đoạn code tôi có thể viết dưới 2 phút. Chi phí cho việc viết prompt + xem xét lớn hơn việc tự gõ nó.
Ngừng dán toàn bộ tệp "để làm ngữ cảnh". Thay vào đó, tôi chỉ gửi giao diện (interface), kiểu dữ liệu (types) và chữ ký hàm.
Ngừng các phiên gỡ lỗi nhiều lượt. Nếu AI không tìm ra lỗi sau 2 lượt, tôi sẽ tự gỡ lỗi (debug). Nó nhanh hơn.
Ngừng dùng mô hình đắt tiền cho các tác vụ đơn giản. Một cuộc gọi API giá 0,002$ làm được cùng công việc với cuộc gọi 0,05$ cho 80% công việc của tôi.

Hãy theo dõi nó

Bạn không thể tối ưu hóa những gì bạn không đo lường. Dành 10 phút để thiết lập một bảng tính theo dõi token đơn giản hoặc sử dụng bảng điều khiển (dashboard) của nhà cung cấp API. Hãy kiểm tra nó hàng tuần.

Hầu hết các lập trình viên tôi từng nói chuyện đều ngạc nhiên về số tiền họ chi cho AI. Những người theo dõi chi tiêu đều tiêu ít hơn 40-60%.

Chi tiêu hàng tháng của bạn cho AI là bao nhiêu? Và bạn có thực sự biết con số đó, hay chỉ đang phán đoán? Theo dõi là bước đầu tiên để kiểm soát nó.