Anthropic giải mã nguyên nhân sụt giảm chất lượng Claude Code trong suốt 6 tuần

Anthropic đã công bố báo cáo hậu kiểm giải thích lý do đằng sau hàng loạt phàn nàn về chất lượng của Claude Code trong sáu tuần qua. Vấn đề xuất phát từ ba thay đổi chồng chéo ở tầng sản phẩm, bao gồm việc hạ cấp nỗ lực suy luận, lỗi bộ nhớ đệm và giới hạn độ dài câu lệnh hệ thống. Mọi vấn đề hiện đã được giải quyết hoàn toàn vào ngày 20/4.

Anthropic vừa công bố một báo cáo kỹ thuật chi tiết (postmortem) giải thích nguyên nhân khiến người dùng phàn nàn về chất lượng của Claude Code trong suốt sáu tuần qua. Thay vì do sự thay đổi trong trọng số mô hình hay API, vấn đề thực chất nằm ở ba thay đổi chồng chéo ở tầng sản phẩm được triển khai từ tháng 3 đến tháng 4 năm 2026.

Người dùng đã báo cáo các triệu chứng rất khác nhau tùy thuộc vào thời điểm sử dụng và tính năng họ phụ thuộc vào. Nguyên nhân là do ba thay đổi không liên quan đến nhau ở tầng sản phẩm, mỗi thay đổi ảnh hưởng đến một phần lưu lượng truy cập theo lịch trình riêng. Tất cả ba vấn đề đã được giải quyết tính đến ngày 20/4 (phiên bản v2.1.116), và Anthropic đã đặt lại giới hạn sử dụng cho tất cả người đăng ký.

Hạ cấp nỗ lực suy luận

Thay đổi đầu tiên là việc hạ cấp nỗ lực suy luận (reasoning effort). Vào ngày 4/3, Anthropic đã chuyển mức nỗ lực suy luận mặc định của Claude Code từ cao (high) xuống trung bình (medium) để giải quyết các vấn đề về độ trễ giao diện, nơi giao diện có vẻ bị đóng băng trong các giai đoạn suy nghĩ dài. Công ty thừa nhận đây là "sự đánh đổi sai lầm". Người dùng báo cáo rằng Claude Code bớt thông minh hơn, và mặc dù có thay đổi giao diện để làm cho cài đặt nỗ lực này hiển thị rõ hơn, hầu hết người dùng vẫn giữ mức mặc định trung bình. Thay đổi này đã được hoàn tác vào ngày 7/4. Hiện tại, tất cả các mô hình đều mặc định ở mức cao hoặc rất cao (xhigh).

Lỗi bộ nhớ đệm xóa suy luận

Vấn đề thứ hai là một lỗi bộ nhớ đệm (caching bug) dần dần xóa chính quá trình suy luận của mô hình. Vào ngày 26/3, Anthropic đã triển khai một tối ưu hóa để xóa các phần suy luận cũ khỏi các phiên làm việc không hoạt động quá một giờ, vì các phiên đó sẽ bị bỏ lỡ bộ nhớ đệm (cache miss) hoàn toàn anyway. Một lỗi đã khiến việc xóa này kích hoạt ở mọi lượt thay đổi cho phần còn lại của phiên thay vì chỉ một lần. Claude sẽ tiếp tục thực thi, nhưng ngày càng ít nhớ hơn lý do tại sao nó đã chọn cách tiếp cận hiện tại.

Boris Cherny từ đội ngũ Claude Code giải thích trên Hacker News rằng trong một trường hợp cực đoan, người dùng có 900K token trong ngữ cảnh và để phiên không hoạt động trong một giờ sẽ đối mặt với việc bỏ lỡ bộ nhớ đệm hoàn toàn vào tin nhắn tiếp theo, tiêu tốn một tỷ lệ đáng kể giới hạn tốc độ, đặc biệt là đối với người dùng Pro. Bản sửa lỗi họ cố gắng thực hiện để giảm chi phí này chính là thứ đã giới thiệu lỗi. Nó đã được sửa vào ngày 10/4.

Giới hạn độ dài câu lệnh hệ thống

Thay đổi thứ ba là sự thay đổi câu lệnh hệ thống (system prompt) được triển khai cùng với Opus 4.7 vào ngày 16/4. Anthropic đã thêm giới hạn độ dài, hướng dẫn mô hình "giữ văn bản giữa các lệnh công cụ ở mức 25 từ trở xuống" và "giữ phản hồi cuối cùng ở mức 100 từ trở xuống". Sau nhiều tuần thử nghiệm nội bộ không có sự suy giảm nào, họ đã triển khai nó. Các bài kiểm tra ablation rộng hơn được chạy trong quá trình điều tra đã cho thấy sự giảm chất lượng 3% cho cả Opus 4.6 và 4.7. Nó đã được hoàn tác vào ngày 20/4.

Phản ứng của cộng đồng và bài học

Cuộc thảo luận trên Hacker News diễn ra khá sôi nổi. Một số người bình luận ghi nhận Anthropic vì đã công bố một báo cáo hậu kiểm chi tiết. Những người khác ít hào phóng hơn về các động cơ cơ bản. Một người bình luận đặt câu hỏi liệu việc giảm độ trễ có phải là lý do thực sự để cắt bớt ngữ cảnh phiên không hoạt động hay không, hay đó là để giảm chi phí.

Trên Reddit, người dùng đã gắn cờ một vấn đề mà báo cáo hậu kiểm không đề cập: việc ủy quyền cho tác nhân con (sub-agent) là Haiku. Claude Code ủy quyền nhiệm vụ cho mô hình Haiku rẻ hơn thường xuyên hơn mức người dùng mong đợi, điều này chỉ hiển thị trong nhật ký chi tiết. Một người bình luận nhấn mạnh rủi ro cho các quy trình làm việc tự động hóa:

"Trong sử dụng tương tác, việc giảm chất lượng là rõ ràng. Bạn có thể điều chỉnh hướng đi. Trong các đường ống tự động hóa, chúng im lặng cho đến 3 nhiệm vụ sau đó. Khó phát hiện hơn nhiều."

Bài học kỹ thuật rộng hơn áp dụng cho bất kỳ đội ngũ nào triển khai các thay đổi tầng sản phẩm xung quanh các mô hình AI. Các bài đánh giá nội bộ và việc "tự dùng sản phẩm" (dogfooding) của Anthropic đã không phát hiện ra bất kỳ ba vấn đề nào vì nhân viên nội bộ đang sử dụng các bản dựng khác nhau, lỗi bộ nhớ đệm chỉ biểu hiện trong một trạng thái cụ thể (các phiên cũ), và bộ đánh giá quá hẹp để không phát hiện ra sự giảm chất lượng 3% từ các thay đổi câu lệnh hệ thống.

Stella Laurenzo đã công bố một cuộc kiểm toán độc lập trên GitHub, phân tích 6.852 tệp phiên Claude Code, 17.871 khối suy nghĩ và 234.760 lệnh gọi công cụ. Các phát hiện của cô cho thấy Claude chuyển từ hành vi ưu tiên nghiên cứu sang hành vi ưu tiên chỉnh sửa, với độ sâu suy luận giảm một cách có thể đo lường được.