Claude thừa nhận chất lượng đang đi xuống: Từ sự cố ngừng hoạt động đến làn sóng phàn nàn

Mô hình AI Claude của Anthropic đang đối mặt với làn sóng phàn nàn về việc chất lượng suy giảm cùng một sự cố ngừng hoạt động vừa qua. Thậm chí, chính Claude cũng thừa nhận số lượng khiếu nại về chất lượng trên GitHub đã tăng mạnh trong những tháng gần đây.

Từng được coi là "ngôi sao sáng" trong mắt các lập trình viên khắp nơi, Claude của Anthropic gần đây đang vấp phải nhiều trắc trở, cả về chi phí lẫn chất lượng dịch vụ. Vào thứ Hai vừa qua, dịch vụ này đã phải trải qua một đợt gián đoạn ngắn được mô tả là "sự cố lớn", càng làm gia tăng sự bất mãn ngày càng tăng từ phía người dùng.

Sự cố này, với tỷ lệ lỗi gia tăng, đã ảnh hưởng đến cả Claude.ai và Claude Code trong khoảng thời gian từ 15:31 đến 16:19 UTC.

Sự cố ngừng hoạt động của Claude vào ngày 13/4

Tuy nhiên, sự cố kỹ thuật chỉ là một phần của vấn đề. Trong vài tháng qua, các câu trả lời của Claude ngày càng trở nên kém thỏa mãn hơn, theo như phản hồi trên mạng xã hội và các vấn đề được đăng tải trên GitHub. Tình trạng này diễn ra trong bối cảnh Anthropic buộc phải thực hiện các biện pháp giảm thiểu sử dụng trong giờ cao điểm để cân bằng công suất và nhu cầu.

Để có một phép đo khách quan hơn, chúng tôi đã yêu cầu chính Claude phân tích kho lưu trữ GitHub của Claude Code, lọc các vấn đề còn mở nhắc đến chất lượng, với câu lệnh: "Phân tích và biểu đồ hóa các khiếu nại về chất lượng của Claude Code trong kho này kể từ tháng 1 năm 2026. Sử dụng các vấn đề còn mở nhắc đến mối quan tâm về chất lượng. Liệu những mối quan tâm này có gia tăng gần đây không?"

Mô hình AI của Anthropic đã kết luận: "Có, các khiếu nại về chất lượng đã gia tăng mạnh mẽ — và dữ liệu cho thấy một câu chuyện khá rõ ràng."

Biểu đồ phân tích các vấn đề về chất lượng của Claude

Chúng tôi đã yêu cầu Claude chạy lại phân tích tự đánh giá này vào thứ Hai và kết quả tương tự, với mô hình đưa ra nhận định: "Tốc độ này đáng chú ý: Tháng 4 đã có hơn 20 vấn đề về chất lượng trong 13 ngày, đang trên đà vượt qua tháng 3 là 18 vấn đề — vốn đã tăng 3,5 lần so với mức cơ sở của tháng 1–2."

Tuy nhiên, Claude không phải là một người kể chuyện đáng tin cậy hoàn toàn. Chỉ vì ai đó (hoặc một bot nào đó) đã báo cáo một lo ngại cho kho lưu trữ Claude Code không có nghĩa là báo cáo đó chính xác hoặc hợp lệ. Có vẻ như nhiều vấn đề hiện nay được tạo ra bởi AI — một mối lo ngại đã được báo cáo rộng rãi trong giới phát triển mã nguồn mở — điều này có thể đang góp phần làm tăng khối lượng báo cáo.

Ngoài ra, kịch bản GitHub Actions của Anthropic dường như cũng tự động đóng các vấn đề sau một thời gian không hoạt động, điều này có thể phục vụ để che giấu các vấn đề chưa được giải quyết.

The Register đã đưa tin về một số vấn đề mà Claude đã gắn cờ trong phân tích của mình, chẳng hạn như vấn đề bộ nhớ đệm và tuyên bố của Giám đốc AI của AMD, Stella Laurenzo, rằng các phản hồi của Claude đang trở nên tồi tệ hơn. Những người khác chưa được xác thực, chẳng hạn như tuyên bố rằng "Claude đã tự động xóa 35.254 bản ghi tin nhắn khách hàng sản xuất và 35.874 giao dịch thanh toán thuộc về một khách hàng trả tiền thực sự (JIXEN)."

Tài khoản cá nhân hoặc bot đứng sau bài đăng này không có bài đăng nào khác. The Register đã cố gắng liên hệ với Jixen Enterprises Private Limited, dường như là một công ty tư nhân đăng ký tại Ấn Độ, để kiểm tra tuyên bố này nhưng chưa nhận được phản hồi. Các nhà phát triển đã báo cáo mất dữ liệu khi sử dụng Claude Code và các mô hình khác. Nhưng nếu điều này xảy ra, chưa ai loại trừ lỗi của người dùng.

Dù vậy, Claude có khả năng trích dẫn các bài đăng vấn đề GitHub thực tế để biện minh cho "lý luận" của mình, vì vậy xu hướng chung — về số lượng báo cáo ngày càng tăng về chất lượng — là rõ ràng.

Mô hình chỉ ra các vấn đề như "Hành vi dự đoán trước của Claude Code rất nguy hiểm trên các dự án có rủi ro vốn" #46212, "Claude Code không thể sử dụng cho các nhiệm vụ kỹ thuật phức tạp với bản cập nhật tháng 2" #42796 (được Boris Cherny, người đứng đầu Claude Code giải quyết), "Sự suy giảm nhân tạo, Thiên kiến thu thập và việc tiết chế tính toán không thể chấp nhận được cho người dùng trả phí" #46949, và "Opus 4.6: Sự suy giảm chất lượng nghiêm trọng trong các nhiệm vụ lập trình lặp lại" #46099 để biện minh cho kết luận của mình.

Tuy nhiên, dữ liệu từ Margin Lab cho thấy Claude Opus 4.6 ít nhất đã duy trì được điểm số trong bài kiểm tra SWE-Bench-Pro. Các đánh giá được thực hiện kể từ tháng 2 cho thấy một số biến động nhưng không có thay đổi đáng kể.

Tại thời điểm này, Anthropic chưa phản hồi ngay lập tức với yêu cầu bình luận về các lo ngại về chất lượng của Claude.

Claude thừa nhận chất lượng đang đi xuống: Từ sự cố ngừng hoạt động đến làn sóng phàn nàn

Bài viết liên quan