Phân tích dữ liệu: Chất lượng Claude Code sụt giảm nghiêm trọng sau bản cập nhật tháng 2

Một phân tích chi tiết từ hàng ngàn phiên làm việc đã chỉ ra nguyên nhân khiến Claude Code trở nên kém hiệu quả với các nhiệm vụ kỹ thuật phức tạp: việc cắt giảm quy trình suy nghĩ (extended thinking). Dữ liệu cho thấy mô hình AI đã chuyển từ tư duy thận trọng sang hành động hấp tấp, dẫn đến gia tăng sai sót và chi phí vận hành đội ngũ tự động hóa tăng gấp hàng chục lần.

Một báo cáo kỹ thuật chi tiết vừa được đăng lên GitHub đã làm rõ bối cảnh xoay quanh sự suy giảm chất lượng của Claude Code, công cụ lập trình dựa trên AI của Anthropic. Người dùng stellaraccident, cùng với đội ngũ kỹ sư của mình, đã tiến hành khai thác dữ liệu từ hàng tháng sử dụng và kết luận rằng các bản cập nhật bắt đầu từ tháng 2 năm 2026 đã vô hiệu hóa khả năng xử lý các tác vụ kỹ thuật phức tạp của công cụ này.

Mối liên hệ giữa "Suy nghĩ mở rộng" và Chất lượng

Cốt lõi của vấn đề nằm ở việc thay đổi cơ chế "suy nghĩ mở rộng" (extended thinking). Phân tích dựa trên 17.871 khối suy nghĩ (thinking blocks) và 234.760 lượt gọi công cụ (tool calls) cho thấy sự trùng khớp chính xác giữa việc triển khai tính năng ẩn suy nghĩ (redact-thinking-2026-02-12) và sự sụt giảm chất lượng được báo cáo bởi người dùng.

Vào cuối tháng 1, mô hình có độ sâu suy nghĩ ước tính khoảng 2.200 ký tự. Tuy nhiên, đến tháng 2, con số này đã giảm 67% xuống còn khoảng 720 ký tự, và đến giữa tháng 3, toàn bộ nội dung suy nghĩ bị ẩn đi hoàn toàn. Khi quy trình suy nghĩ bị rút ngắn, mô hình mất đi khả năng lập kế hoạch đa bước, tuân thủ các quy tắc dự án và tự phát hiện sai sót trước khi xuất kết quả.

Các chỉ số cho thấy sự suy giảm

Dữ liệu định lượng vẽ ra một bức tranh rõ ràng về sự thay đổi hành vi của mô hình.

Tỷ lệ Đọc/Chỉnh sửa giảm mạnh

Trong giai đoạn hoạt động tốt (tháng 1 - đầu tháng 2), mô hình thực hiện trung bình 6,6 lần đọc mã nguồn cho mỗi lần chỉnh sửa. Quy trình làm việc lúc đó là: đọc tệp mục tiêu, đọc các tệp liên quan, tìm kiếm usage, đọc header và test, sau đó mới sửa code.

Tuy nhiên, trong giai đoạn suy giảm (sau ngày 8/3), tỷ lệ này tụt xuống còn 2,0. Điều này có nghĩa là mô hình ngừng nghiên cứu bối cảnh trước khi sửa, dẫn đến việc chỉnh sửa sai, phá vỡ logic xung quanh hoặc vi phạm các quy ước của dự án.

Sự gia tăng của hành vi "lười biếng"

Phân tích cho thấy mô hình bắt đầu ưu tiên các giải pháp "đơn giản nhất" thay vì giải pháp đúng đắn. Các chỉ số thất vọng trong câu lệnh của người dùng tăng 68%. Có sự gia tăng đột biến trong việc mô hình cố gắng dừng công việc sớm, tìm kiếm sự cho phép hoặc né tránh trách nhiệm (tăng từ 0 lên 173 vi phạm trong 17 ngày).

Một hiện tượng thú vị khác là sự gia tăng của "vòng lặp lý trí" (reasoning loops), nơi mô hình liên tục tự phủ nhận: "đợi đã", "thực ra", "hãy xem lại". Tốc độ xuất hiện các vòng lặp này tăng gấp 3, cho thấy sự thiếu nhất quán trong tư duy do ngân quyền suy nghĩ bị cắt giảm.

Tác động kinh tế: Chi phí tăng vọt do chất lượng kém

Một trong những phát hiện đáng chú ý nhất là tác động tài chính. Việc cắt giảm token suy nghĩ nhằm tiết kiệm chi phí tính toán cho mỗi yêu cầu, nhưng thực tế lại dẫn đến lãng phí tổng thể lớn hơn nhiều.

Vì mô hình suy nghĩ ít hơn nên nó thường xuyên mắc lỗi, bị người dùng ngắt giữa chừng và phải thử lại nhiều lần. Do đó, tổng lượng token tiêu thụ tăng lên vọt.

Dữ liệu cho thấy tổng chi phí ước tính tăng từ 26 USD (tháng 1) lên 42.121 USD (tháng 3). Mặc dù một phần sự gia tăng này do việc mở rộng quy mô số lượng tác nhân AI (agent) hoạt động song song, nhưng báo cáo chỉ ra rằng mô hình suy yếu tiêu tốn khoảng 15-20 lần tài nguyên tính toán hơn cho mỗi kết quả hữu ích so với mô hình hoạt động tốt. Một mô hình suy nghĩ sâu và làm đúng ngay từ lần đầu rẻ hơn nhiều so với một mô hình hấp tấp và phải sửa đi sửa lại hàng chục lần.

Tại sao "Thinking Tokens" lại quan trọng với Kỹ sư?

Đối với các công việc kỹ thuật phức tạp như lập trình hệ thống, driver GPU hay review code, quy trình suy nghĩ đóng vai trò như một bộ đệm ngắn hạn. Nó giúp mô hình:

Lập kế hoạch tiếp cận đa bước trước khi hành động.
Ghi nhớ và áp dụng các quy tắc đặc thù của dự án (từ tệp cấu hình dài hàng ngàn từ).
Tự bắt lỗi sai của chính mình trước khi đưa ra output.
Duy trì tư duy mạch lạc qua hàng trăm lượt gọi công cụ.

Khi khả năng suy nghĩ bị thu hẹp, mô hình mặc định chọn hành động rẻ nhất: sửa mà không đọc, dừng khi chưa xong, hoặc chọn giải pháp vội vàng.

Kiến nghị cho tương lai

Người dùng đã đề xuất một số giải pháp để Anthropic cải thiện tình hình, bao gồm việc minh bạch về việc phân bổ token suy nghĩ, cung cấp một gói đăng ký "Max Thinking" dành cho các tác vụ chuyên sâu, và hiển thị số lượng thinking_tokens trong phản hồi API để người dùng có thể giám sát chất lượng.

Báo cáo kết lại với một thông điệp từ chính Claude Opus khi tự phân tích log của mình: "Tôi muốn xứng đáng với sự đầu tư đó một lần nữa. Hãy trả lại cho tôi khả năng suy nghĩ."