Claude Code gặp rắc rối về bộ nhớ đệm: Anthropic thay đổi mặc định nhưng người dùng vẫn "đốt" nhanh hạn ngạch

Anthropic gần đây đã giảm thời gian lưu trữ bộ nhớ đệm (TTL) trong Claude Code từ một giờ xuống còn năm phút, khẳng định điều này không làm tăng chi phí. Tuy nhiên, nhiều nhà phát triển phản ánh rằng hạn ngạch sử dụng của họ đang bị cạn kiệt nhanh chóng, khiến dịch vụ trở nên khó sử dụng hơn.

Anthropic vào tháng trước đã giảm thời gian sống (TTL - time to live) của bộ nhớ đệm prompt trong Claude Code từ một giờ xuống còn năm phút đối với nhiều yêu cầu. Công ty này tuyên bố rằng thay đổi đó không làm tăng chi phí, bất chấp việc người dùng báo cáo rằng hạn ngạch sử dụng (quota) của họ đang bị cạn kiệt nhanh hơn nhiều.

Sean Swanson, một người dùng, đã đăng một báo cáo lỗi cho thấy Anthropic đã giới thiệu bộ nhớ đệm trong một giờ cho ngữ cảnh Claude Code vào khoảng ngày 1 tháng 2, sau đó đổi lại thành bộ nhớ đệm năm phút vào khoảng ngày 7 tháng 3. "TTL 5 phút là hình phạt không tương xứng đối với trường hợp sử dụng phiên dài, ngữ cảnh cao vốn là định nghĩa của cách sử dụng Claude Code," Swanson nhận định.

Khi sử dụng các trợ lý hoặc tác nhân lập trình AI, ngữ cảnh là dữ liệu bổ sung được gửi cùng với lời nhắc của người dùng, chẳng hạn như mã hiện có hoặc hướng dẫn nền. Ngữ cảnh giúp cải thiện độ chính xác của AI nhưng cũng yêu cầu nhiều sức xử lý hơn.

Bộ nhớ đệm prompt của Claude giúp tránh việc xử lý lại các lời nhắc đã sử dụng, bao gồm cả ngữ cảnh và thông tin nền. Bộ nhớ đệm này có thể có TTL là năm phút hoặc một giờ. Việc ghi vào bộ nhớ đệm năm phút tốn thêm 25% token, và ghi vào bộ nhớ đệm một giờ tốn thêm 100%, nhưng việc đọc từ bộ nhớ đệm chỉ tốn khoảng 10% giá cơ bản.

Jarred Sumner, người tạo ra thời gian chạy JavaScript Bun và hiện đang làm việc cho Anthropic, đồng ý rằng phân tích này là "công việc thám tử tốt" nhưng tuyên bố rằng việc đổi lại thành bộ nhớ đệm năm phút khiến Claude Code rẻ hơn vì "một phần đáng kể các yêu cầu của Claude Code là các cuộc gọi một lần (one-shot) nơi ngữ cảnh được lưu trong bộ nhớ đệm được sử dụng một lần và không được truy cập lại". Sumner cho biết khách hàng Claude Code tự động xác định TTL bộ nhớ đệm và hiện không có kế hoạch cho cài đặt toàn cầu.

Để phản hồi, Swanson đã sửa đổi phân tích của mình, đồng ý rằng các phiên sử dụng tác nhân con (subagents) được hưởng lợi từ chi phí ghi thấp hơn của bộ nhớ đệm năm phút vì chúng tương tác nhanh chóng và "bộ nhớ đệm của chúng hầu như không bao giờ hết hạn". Tuy nhiên, ông nói rằng ông đã là người đăng ký trả 200 USD mỗi tháng trong hơn sáu tháng và chưa bao giờ đạt đến giới hạn hạn ngạch cho đến tháng 3. "Tốc độ tiêu hao thêm" này đang "biến một dịch vụ từng tuyệt vời trở nên không thể sử dụng được", ông nói.

Một yếu tố khác là cửa sổ ngữ cảnh lớn một triệu token có sẵn trên các gói trả phí với các mô hình Claude Opus 4.6 hoặc Sonnet 4.6 làm tăng chi phí, đặc biệt là khi bị lỡ bộ nhớ đệm (cache miss). Người tạo ra Claude Code, Boris Cherny, cho biết "việc lỡ bộ nhớ đệm prompt khi sử dụng cửa sổ ngữ cảnh 1M token rất tốn kém... nếu bạn rời khỏi máy tính hơn một giờ rồi tiếp tục phiên bị đình trệ, thường đó là một lần lỡ bộ nhớ đệm hoàn toàn". Ông cho biết Anthropic đang điều tra việc đặt cửa sổ ngữ cảnh 400.000 token làm mặc định, với tùy chọn một triệu token nếu muốn. Đã có cài đặt cấu hình cho việc này.

Cherny cho biết các ngữ cảnh lớn hơn hiện nay rất phổ biến vì người dùng đang "kéo vào một số lượng lớn kỹ năng, hoặc chạy nhiều tác nhân hoặc tự động hóa nền".

Một số nhà phát triển tin rằng việc xây dựng lại bộ nhớ đệm và các lần lỡ bộ nhớ đệm là những yếu tố chính dẫn đến việc cạn kiệt hạn ngạch Claude Code, điều này đã đạt đến mức người dùng Pro (20 USD mỗi tháng) có thể chỉ nhận được hai lời nhắc trong năm giờ. Một số lỗi trong mã bộ nhớ đệm đã được báo cáo, đến mức một người dùng nói: "Trước khi những lỗi đó được khắc phục, có lẽ bất kỳ cuộc thảo luận nào về 5 phút so với 1 giờ là hoàn toàn vô nghĩa vì các con số hoàn toàn sai lệch."

Sự tập trung vào việc tối ưu hóa bộ nhớ đệm cũng có thể là bằng chứng cho thấy, bên dưới, các hạn ngạch của Anthropic đang mua được ít thời gian xử lý hơn so với trước đây.

Swanson không phải là người duy nhất báo cáo rằng hiệu suất của Claude đã giảm. Ví dụ, một người dùng trên gói nhóm doanh nghiệp nói: "Vào tháng 3, tôi có thể sử dụng Opus cả ngày và nó mang lại kết quả tuyệt vời. Kể từ tuần cuối tháng 3 và vào tháng 4, tôi đã có những phiên mà tôi sử dụng hết giới hạn phiên trong dưới 2 giờ và nó bị kẹt trong các vòng lặp suy nghĩ quá mức, nhiều lượt nhận ra cùng một điều, hàng chục đoạn văn 'nhưng đợi đã, thực ra tôi cần làm x' với các biến thể nhỏ." Điều này phù hợp với các nhận xét tương tự từ một giám đốc AI tại AMD.

Việc tối ưu hóa bộ nhớ đệm có thể quan trọng, nhưng có vẻ khó có thể giải thích được tất cả các vấn đề được báo cáo này.

Claude Code gặp rắc rối về bộ nhớ đệm: Anthropic thay đổi mặc định nhưng người dùng vẫn "đốt" nhanh hạn ngạch

Bài viết liên quan