Anthropic âm thầm giảm thời gian cache từ 1 giờ xuống 5 phút, gây tăng chi phí API đột biến
Một báo cáo kỹ thuật chi tiết cho thấy Anthropic dường như đã âm thầm thay đổi cấu hình mặc định của bộ nhớ đệm (cache) từ 1 giờ xuống còn 5 phút vào đầu tháng 3 năm 2026. Thay đổi này khiến chi phí sử dụng API tăng từ 20% đến 32% và khiến nhiều người dùng Claude Code bất ngờ vượt quá hạn mức dung lượng cho phép.

Anthropic, công ty đứng sau mô hình AI Claude, đang đối mặt với cáo buộc về việc âm thầm thay đổi cấu hình hệ thống dẫn đến việc tăng chi phí đột biến cho người dùng. Một vấn đề được đăng tải gần đây trên GitHub đã chỉ ra rằng thời gian sống (TTL - Time To Live) của bộ nhớ đệm cache đã bị giảm từ 1 giờ xuống còn 5 phút mà không có bất kỳ thông báo nào.
Vấn đề này đặc biệt ảnh hưởng đến người dùng của Claude Code, công cụ lập trình hỗ trợ bởi AI của Anthropic.
Phân tích dữ liệu phát hiện sự thay đổi "bóng tối"
Người dùng có tên seanGSISG đã thực hiện phân tích sâu các tệp nhật ký JSONL thô từ các phiên làm việc trên Claude Code trong khoảng thời gian từ ngày 11/1 đến ngày 11/4/2026. Dữ liệu tổng hợp từ hai máy tính riêng biệt và 119.866 cuộc gọi API đã hé lộ một mô hình rõ ràng về sự thay đổi cấu hình phía máy chủ (server-side).
Dữ liệu được chia thành các giai đoạn như sau:
- Giai đoạn 1 (11/1 – 31/1): Chỉ sử dụng cache 5 phút (có thể do tính năng 1 giờ chưa ra mắt).
- Giai đoạn 2 (1/2 – 5/3): Chỉ sử dụng cache 1 giờ. Đây được coi là hành vi chuẩn mặc định trong suốt hơn 1 tháng.
- Giai đoạn 3 (6/3 – 7/3): Giai đoạn chuyển tiếp, cache 5 phút bắt đầu xuất hiện trở lại với số lượng nhỏ.
- Giai đoạn 4 (8/3 – 11/4): Cache 5 phút trở thành chủ đạo. Số lượng token loại 5 phút tăng vọt, chiếm tỷ trọng áp đảo, trong khi cache 1 giờ trở nên thiểu số hoặc biến mất.
Sự thay đổi này diễn ra đồng thời trên cả hai máy tính và tài khoản độc lập, loại trừ khả năng do lỗi ở phía người dùng (client-side).
Tác động tiêu cực đến chi phí và hạn mức (Quota)
Việc chuyển đổi từ TTL 1 giờ sang 5 phút không chỉ là một thay đổi về thông số kỹ thuật mà còn tác động trực tiếp đến túi tiền của nhà phát triển.
Tăng chi phí API
Khi cache hết hạn sau 5 phút, nếu người dùng tạm dừng phiên làm việc lâu hơn khoảng thời gian này, toàn bộ ngữ cảnh (context) sẽ bị xóa. Lần tiếp theo họ gửi lệnh, hệ thống phải thực hiện việc ghi cache mới (cache_creation) với mức giá đắt hơn rất nhiều so với việc đọc cache cũ (cache_read).
Phân tích cho thấy tỷ lệ lãng phí chi phí (overpaid) lên tới:
- Tháng 1: 52,5%
- Tháng 2: 1,1% (khi cache 1 giờ đang hoạt động tốt)
- Tháng 3: 25,9%
- Tháng 4: 14,8%
Trong tổng thể, người dùng đã lãng phí khoảng 17,1% chi phí cho các mô hình Claude Sonnet và Opus chỉ vì sự thay đổi ngầm định này. Với tốc độ ghi cache đắt gấp 12,5 lần tốc độ đọc, việc cache liên tục bị hết hạn tạo ra một khoản phí phạt không nhỏ cho các phiên coding kéo dài.
Vượt quá hạn mức dùng (Quota)
Nhiều người dùng sử dụng gói đăng ký (Pro/subscription) bị giới hạn bởi hạn mức 5 giờ thay vì chỉ trả tiền theo dung lượng sử dụng. Token dùng để tạo cache tính vào hạn mức với mức giá đầy đủ. Do đó, việc phải ghi lại cache liên tục do TTL ngắn khiến nhiều người dùng lần đầu tiên bị thông báo "hết hạn mức" dù thói quen sử dụng không đổi.
Yêu cầu minh bạch từ cộng đồng
Tác giả của vấn đề trên GitHub đã đưa ra giả thuyết rằng Anthropic có thể đã thực hiện thay đổi này để tiết kiệm chi phí hạ tầng hoặc là một sự cố sai sót về kỹ thuật.
Cộng đồng người dùng hiện đang yêu cầu Anthropic:
- Xác nhận hoặc phủ nhận việc có thay đổi cấu hình TTL mặc định vào đầu tháng 2 và thu hồi vào đầu tháng 3.
- Làm rõ hành vi TTL dự định cho các phiên Claude Code: 5 phút hay 1 giờ mới là mặc định đúng?
- Khôi phục lại cấu hình TTL 1 giờ hoặc cung cấp tùy chọn để người dùng tự cấu hình, phù hợp với đặc thù các phiên làm việc dài (long-session) trong lập trình.
- Công khai minh bạch cách tính hạn mức cho các token
cache_readđể người dùng có thể dự toán chi phí chính xác.
Đến thời điểm hiện tại, Anthropic chưa đưa ra phản hồi chính thức công khai về vấn đề này trên trang issue của GitHub.
Bài viết liên quan

Công nghệ
George Orwell đã tiên đoán sự trỗi dậy của "rác thải AI" trong tác phẩm 1984
16 tháng 4, 2026

Phần mềm
Anthropic ra mắt Claude Opus 4.7: Nâng cấp mạnh mẽ cho lập trình nhưng vẫn thua Mythos Preview
16 tháng 4, 2026

Công nghệ
Qwen3.6-35B-A3B: Quyền năng Lập trình Agentic, Nay Đã Mở Cửa Cho Tất Cả
16 tháng 4, 2026
