Đã tìm ra nguyên nhân: Anthropic thừa nhận thay đổi cấu hình khiến Claude bị "giảm trí tuệ"

Sau hàng loạt phàn nàn từ cộng đồng lập trình về việc Claude suy giảm hiệu suất, Anthropic đã công bố báo cáo kỹ thuật xác định ba lỗi trong cấu hình hệ thống là thủ phạm. Công ty đã khắc phục các lỗi này và bồi thường cho người dùng.

Trong nhiều tuần qua, làn sóng phàn nàn từ các nhà phát triển và người dùng chuyên dụng về AI ngày càng gia tăng, cho rằng các mô hình hàng đầu của Anthropic đang mất đi thế mạnh của mình. Người dùng trên GitHub, X và Reddit đã báo cáo về một hiện tượng được mô tả là "lạm phát AI" (AI shrinkflation) — một sự suy giảm chất lượng được cảm nhận rõ rệt, nơi Claude dường như kém khả năng suy luận liên tục hơn, dễ bị ảo giác hơn và ngày càng lãng phí token hơn.

Các nhà phê bình đã chỉ ra một sự thay đổi có thể đo lường được trong hành vi, cáo buộc rằng mô hình đã chuyển từ cách tiếp cận "ưu tiên nghiên cứu" sang phong cách "ưu tiên chỉnh sửa" lười biếng hơn, khiến nó không còn đáng tin cậy cho các nhiệm vụ kỹ thuật phức tạp. Mặc dù ban đầu công ty đã bác bỏ các cáo buộc về việc "làm giảm sức mạnh" (nerfing) mô hình để quản lý nhu cầu, nhưng bằng chứng ngày càng tăng từ những người dùng nổi tiếng và các điểm chuẩn bên thứ ba đã tạo ra một khoảng cách đáng kể về niềm tin.

Hôm nay, Anthropic đã trực tiếp giải quyết các mối quan ngại này bằng cách công bố một bản phân tích kỹ thuật (post-mortem), xác định ba thay đổi riêng biệt ở lớp sản phẩm là nguyên nhân gây ra các vấn đề về chất lượng được báo cáo.

"Chúng tôi coi các báo cáo về sự suy giảm rất nghiêm túc," bài đăng trên blog của Anthropic nêu rõ. "Chúng tôi không bao giờ cố ý làm giảm chất lượng mô hình của mình và chúng tôi có thể xác nhận ngay lập tức rằng API và lớp suy luận của chúng tôi không bị ảnh hưởng."

Anthropic tuyên bố họ đã giải quyết được các vấn đề bằng cách hoàn nguyên thay đổi nỗ lực suy luận và lời nhắc độ dài (verbosity prompt), đồng thời sửa lỗi bộ nhớ đệm trong phiên bản v2.1.116.

Bằng chứng về sự suy giảm chất lượng

Vụ tranh cãi này đã trở nên sôi nổi vào đầu tháng 4 năm 2026, được thúc đẩy bởi các phân tích kỹ thuật chi tiết từ cộng đồng lập trình viên. Stella Laurenzo, Giám đốc cấp cấp của nhóm AI tại AMD, đã công bố một cuộc kiểm toán toàn diện gồm 6.852 tệp phiên Claude Code và hơn 234.000 lệnh gọi công cụ trên Github, cho thấy hiệu suất giảm sút so với mức sử dụng trước đây của bà.

Kết quả của bà cho thấy độ sâu suy luận của Claude đã giảm mạnh, dẫn đến các vòng lặp suy luận và xu hướng chọn "giải pháp đơn giản nhất" thay vì giải pháp đúng đắn.

Sự thất vọng này dường như được xác nhận bởi các điểm chuẩn của bên thứ ba. BridgeMind báo cáo rằng độ chính xác của Claude Opus 4.6 đã giảm từ 83,3% xuống còn 68,3% trong các bài kiểm tra của họ, khiến thứ hạng của nó tụt từ vị trí số 2 xuống số 10. Mặc dù một số nhà nghiên cứu lập luận rằng các so sánh điểm chuẩn cụ thể này bị sai sót do phạm vi kiểm tra không nhất quán, nhưng câu chuyện rằng Claude đã trở nên "ngu ngốc hơn" đã trở thành một chủ đề thảo luận lan truyền. Người dùng cũng báo cáo rằng giới hạn sử dụng cạn kiệt nhanh hơn dự kiến, dẫn đến nghi ngờ rằng Anthropic đang cố tình hạn chế hiệu suất để quản lý nhu cầu tăng vọt.

Các nguyên nhân chính

Trong bài đăng blog của mình, Anthropic đã làm rõ rằng mặc dù các trọng số (weights) cơ bản của mô hình không bị suy giảm, nhưng ba thay đổi cụ thể đối với "bộ điều khiển" (harness) bao quanh các mô hình đã vô tình cản trở hiệu suất của chúng:

Mức độ nỗ lực suy luận mặc định (Default Reasoning Effort): Vào ngày 4 tháng 3, Anthropic đã thay đổi mức độ nỗ lực suy luận mặc định từ high (cao) xuống medium (trung bình) cho Claude Code để giải quyết các vấn đề về độ trễ giao diện người dùng. Thay đổi này nhằm ngăn giao diện bị "đóng băng" trong khi mô hình suy nghĩ, nhưng nó dẫn đến sự sụt giảm rõ rệt về trí thông minh đối với các nhiệm vụ phức tạp.
Lỗi logic bộ nhớ đệm (Caching Logic Bug): Ra mắt vào ngày 26 tháng 3, một tối ưu hóa bộ nhớ đệm nhằm loại bỏ các "suy nghĩ" cũ khỏi các phiên không hoạt động đã chứa một lỗi nghiêm trọng. Thay vì xóa lịch sử suy nghĩ một lần sau một giờ không hoạt động, nó lại xóa lịch sử này ở mọi lượt tiếp theo, khiến mô hình mất "bộ nhớ ngắn hạn" và trở nên lặp lại hoặc hay quên.
Giới hạn độ dài lời nhắc hệ thống (System Prompt Verbosity Limits): Vào ngày 16 tháng 4, Anthropic đã thêm hướng dẫn vào lời nhắc hệ thống để giữ văn bản giữa các lệnh gọi công cụ dưới 25 từ và phản hồi cuối cùng dưới 100 từ. Nỗ lực giảm độ dài văn bản trong Opus 4.7 này đã phản tác dụng, gây ra sự sụt giảm 3% trong các đánh giá chất lượng mã hóa.

Tác động và các biện pháp bảo vệ trong tương lai

Các vấn đề về chất lượng không chỉ giới hạn trong CLI của Claude Code, mà còn ảnh hưởng đến Claude Agent SDK và Claude Cowork, mặc dù Claude API không bị ảnh hưởng.

Anthropic thừa nhận rằng những thay đổi này khiến mô hình trông có vẻ "ít thông minh hơn", điều mà họ thừa nhận là không phải là trải nghiệm người dùng mong đợi.

Để lấy lại niềm tin của người dùng và ngăn chặn các sự suy giảm trong tương lai, Anthropic đang thực hiện một số thay đổi vận hành:

Sử dụng nội bộ (Internal Dogfooding): Một tỷ lệ lớn hơn nhân viên nội bộ sẽ được yêu cầu sử dụng các bản dựng công khai chính xác của Claude Code để đảm bảo họ trải nghiệm sản phẩm giống như người dùng.
Bộ đánh giá được nâng cao: Công ty sẽ chạy một bộ đánh giá và "phẫu thuật" (ablations) rộng hơn cho mỗi mô hình đối với mọi thay đổi lời nhắc hệ thống để cô lập tác động của các hướng dẫn cụ thể.
Kiểm soát chặt chẽ hơn: Các công cụ mới đã được xây dựng để việc thay đổi lời nhắc dễ dàng kiểm toán hơn, và các thay đổi cụ thể theo mô hình sẽ được kiểm soát nghiêm ngặt đối với các mục tiêu dự định của chúng.
Bồi thường cho người đăng ký: Để bù đắp cho việc lãng phí token và ma sát về hiệu suất do các lỗi này gây ra, Anthropic đã đặt lại giới hạn sử dụng cho tất cả người đăng ký tính từ ngày 23 tháng 4.

Công ty có ý định sử dụng tài khoản @ClaudeDevs mới trên X và các luồng thảo luận trên GitHub để cung cấp lý do sâu sắc hơn đằng sau các quyết định sản phẩm trong tương lai và duy trì đối thoại minh bạch hơn với cơ sở lập trình viên của mình.

Đã tìm ra nguyên nhân: Anthropic thừa nhận thay đổi cấu hình khiến Claude bị "giảm trí tuệ"

Bằng chứng về sự suy giảm chất lượng

Các nguyên nhân chính

Tác động và các biện pháp bảo vệ trong tương lai

Bài viết liên quan