Anthropic có đang làm yếu Claude? Người dùng tố hiệu suất giảm sút, công ty phản bác

Ngày càng nhiều nhà phát triển và người dùng chuyên nghiệp cáo buộc Anthropic làm giảm hiệu suất của Claude Opus 4.6 và Claude Code. Anthropic phủ nhận việc cố tình làm yếu mô hình, cho rằng sự thay đổi cảm nhận là do điều chỉnh cài đặt sản phẩm và giới hạn sử dụng.

Ngày càng nhiều nhà phát triển và người dùng chuyên nghiệp về AI đang lên mạng xã hội để cáo buộc Anthropic làm giảm hiệu suất của Claude Opus 4.6 và Claude Code — dù là cố ý hay do giới hạn tính toán — lập luận rằng mô hình lập trình hàng đầu của công ty này cảm thấy kém khả năng hơn, kém tin cậy hơn và lãng phí token hơn so với vài tuần trước.

Các lời phàn nàn đã lan truyền nhanh chóng trên GitHub, X và Reddit trong vài tuần qua, với nhiều bài đăng có sức ảnh hưởng lớn cho rằng Claude đã trở nên tệ hơn trong việc duy trì suy luận, có xu hướng bỏ dở nhiệm vụ giữa chừng và dễ bị ảo giác hoặc mâu thuẫn hơn.

Một số người dùng gọi vấn đề này là "lạm phát co giãn AI" (AI shrinkflation) — ý tưởng rằng khách hàng phải trả cùng một mức giá cho một sản phẩm yếu hơn. Những người khác đi xa hơn, gợi ý rằng Anthropic có thể đang tiết chế hoặc điều chỉnh Claude đi xuống trong những giai đoạn nhu cầu cao.

Những tuyên bố này vẫn chưa được chứng minh, và nhân viên Anthropic đã công khai phủ nhận rằng công ty làm giảm chất lượng mô hình để quản lý dung lượng. Tuy nhiên, Anthropic cũng thừa nhận những thay đổi thực tế đối với giới hạn sử dụng và mặc định suy luận trong những tuần gần đây, điều này đã làm cuộc tranh luận rộng lớn hơn trở nên sôi nổi hơn.

Lời phàn nàn lan truyền, kể cả từ Giám đốc cấp cao của AMD, lập luận Claude đã kém khả năng hơn

Một trong những lời phàn nàn công khai chi tiết nhất bắt nguồn từ một vấn đề trên GitHub do Stella Laurenzo đệ trình vào ngày 2 tháng 4 năm 2026, người mà hồ sơ LinkedIn xác nhận là Giám đốc cấp cao tại nhóm AI của AMD.

Trong bài đăng đó, Laurenzo viết rằng Claude Code đã thoái hóa đến mức không thể tin cậy cho các công việc kỹ thuật phức tạp, sau đó củng cố tuyên bố này bằng một phân tích rộng lớn của 6.852 tệp phiên Claude Code, 17.871 khối suy luận và 234.760 lệnh gọi công cụ.

Lời phàn nàn lập luận rằng, bắt đầu từ tháng 2, độ sâu suy luận ước tính của Claude đã giảm mạnh trong khi các dấu hiệu hiệu suất kém hơn tăng lên song hành, bao gồm việc dừng sớm nhiều hơn, hành vi "sửa chữa đơn giản nhất" nhiều hơn, các vòng lặp suy luận nhiều hơn và sự chuyển đổi có thể đo lường được từ hành vi ưu tiên nghiên cứu sang hành vi ưu tiên chỉnh sửa.

Điểm chính của bài đăng là đối với các quy trình kỹ thuật tiên tiến, suy luận mở rộng không phải là xa xỉ mà là một phần tạo nên khả năng sử dụng của mô hình.

Chủ đề GitHub sau đó đã thoát ra khỏi cuộc trò chuyện xã hội rộng lớn hơn, với người dùng X bao gồm @Hesamation, người đã đăng ảnh chụp màn hình bài đăng GitHub của Laurenzo lên X vào ngày 11 tháng 4, biến nó thành một chủ đề thảo luận lan truyền hơn.

Sự khuếch đại này rất quan trọng vì nó cung cấp cho câu chuyện rộng lớn "Claude đang trở nên tệ hơn" một thứ gì đó cụ thể hơn là sự thất vọng mang tính giai thoại: một bài đăng dài, nhiều dữ liệu từ một lãnh đạo AI cấp cao tại một công ty chip lớn lập luận rằng sự thoái hóa này có thể nhìn thấy trong nhật ký, mẫu sử dụng công cụ và các chỉnh sửa của người dùng, không chỉ là cảm tính.

Anthropic phản bác: Thay đổi sản phẩm, không phải làm giảm bí mật

Phản hồi công khai của Anthropic tập trung vào việc tách biệt các thay đổi cảm nhận khỏi sự thoái hóa mô hình thực tế. Trong một bài trả lời được ghim trên cùng vấn đề GitHub được đăng một tuần trước, người phụ trách Claude Code Boris Cherny đã cảm ơn Laurenzo vì sự chăm sóc và chiều sâu của phân tích nhưng tranh luận về kết luận chính của cô ấy.

Cherny nói rằng tiêu đề "redact-thinking-2026-02-12" được trích dẫn trong lời phàn nàn là một thay đổi chỉ ở giao diện người dùng (UI) ẩn suy luận khỏi giao diện và giảm độ trễ, nhưng "không ảnh hưởng đến chính suy luận", "ngân sách suy luận" hoặc cách suy luận mở rộng hoạt động dưới bề mặt.

Ông cũng nói rằng hai thay đổi sản phẩm khác có khả năng đã ảnh hưởng đến những gì người dùng đang thấy: việc chuyển sang suy luận thích ứng mặc định của Opus 4.6 vào ngày 9 tháng 2, và sự chuyển đổi vào ngày 3 tháng 3 sang mức nỗ lực trung bình, hay mức nỗ lực 85, làm mặc định cho Opus 4.6, mà ông nói Anthropic coi là sự cân bằng tốt nhất giữa trí thông minh, độ trễ và chi phí cho hầu hết người dùng.

Cherny thêm rằng những người dùng muốn có suy luận mở rộng hơn có thể chuyển đổi nỗ lực cao hơn thủ công bằng cách gõ /effort high trong các phiên terminal của Claude Code.

Trao đổi này đi vào trọng tâm của cuộc tranh cãi. Các nhà phê bình như Laurenzo lập luận rằng hành vi của Claude trong các quy trình lập trình đòi hỏi đã rõ ràng trở nên tồi tệ hơn và chỉ ra nhật ký và mẫu sử dụng làm bằng chứng. Ngược lại, Anthropic không nói là không có gì thay đổi. Họ nói rằng những thay đổi lớn nhất gần đây là các lựa chọn sản phẩm và giao diện ảnh hưởng đến những gì người dùng thấy và mức nỗ lực hệ thống chi tiêu theo mặc định, không phải là việc hạ cấp bí mật mô hình cơ bản.

Sự phân biệt đó có thể quan trọng về mặt kỹ thuật, nhưng đối với người dùng chuyên nghiệp cảm thấy sản phẩm mang lại kết quả tồi tệ hơn, điều đó không nhất thiết thỏa đáng.

Các bài đăng benchmark biến sự thất vọng giai thoại thành tranh cãi công khai

Tuyên bố dựa trên benchmark lớn nhất đến từ BridgeMind, người chạy benchmark ảo giác BridgeBench. Vào ngày 12 tháng 4, tài khoản đã đăng rằng Claude Opus 4.6 đã giảm từ độ chính xác 83,3% và xếp hạng No. 2 trong kết quả trước đó xuống còn 68,3% và xếp hạng No. 10 trong một lần kiểm tra lại, gọi đó là bằng chứng cho thấy "Claude Opus 4.6 bị làm yếu".

Bài đăng đó lan truyền rộng rãi và trở thành một trong những trụ cột chính cho vụ việc công khai rộng lớn hơn rằng Anthropic đã làm giảm chất lượng mô hình.

Tuy nhiên, những người chỉ trích các tuyên bố benchmark nói rằng bằng chứng yếu hơn vẻ bề ngoài. Sự phản bác quan trọng nhất đối với tuyên bố của BridgeBench không đến từ Anthropic. Nó đến từ Paul Calcraft, một nhà nghiên cứu phần mềm và AI bên ngoài trên X, người lập luận rằng so sánh lan truyền này gây hiểu lầm vì kết quả Opus 4.6 trước đó chỉ dựa trên sáu nhiệm vụ trong khi kết quả sau này dựa trên 30 nhiệm vụ.

Theo lời ông ấy, đó là một "BENCHMARK KHÁC BIỆT". Ông cũng nói rằng trên sáu nhiệm vụ mà hai lần chạy chia sẻ chung, điểm số của Claude chỉ di chuyển khiêm tốn, từ 87,6% trước đó xuống 85,4% trong lần chạy sau, và sự dao động lớn hơn xuất hiện chủ yếu từ một kết quả fabrication duy nhất không được lặp lại. Ông mô tả điều đó là một thứ có thể dễ dàng rơi vào nhiễu thống kê thông thường.

Sự phản đối từ bên ngoài này rất quan trọng vì nó làm suy yếu một trong những tuyên bố rõ ràng và lan truyền nhất đang lưu hành. Nó không chứng minh người dùng sai khi nghĩ rằng một cái gì đó đã thay đổi. Nhưng nó gợi ý rằng ít nhất một số bằng chứng benchmark hiện đang thúc đẩy câu chuyện có thể đã được cường điệu hóa, chuẩn hóa kém hoặc không thể so sánh trực tiếp.

Giới hạn dung lượng và Caching (Prompt caching)

Làn sóng phản đối hiện tại cũng diễn ra trong bối cảnh của một thay đổi chính sách thực tế, được xác nhận của Anthropic từ cuối tháng 3. Vào ngày 26 tháng 3, nhân viên kỹ thuật Anthropic Thariq Shihipar đã đăng rằng, "Để quản lý nhu cầu ngày càng tăng cho Claude", công ty đang điều chỉnh cách giới hạn phiên 5 giờ hoạt động cho người đăng ký Free, Pro và Max trong giờ cao điểm, trong khi giữ giới hạn hàng tuần không đổi.

Những bình luận đó là về giới hạn phiên, không phải hạ cấp mô hình. Nhưng chúng là bối cảnh quan trọng, vì chúng thiết lập hai điều mà người dùng hiện nay liên tục kết nối công khai: thứ nhất, Anthropic đang đối phó với nhu cầu tăng vọt; thứ hai, họ đã thay đổi cách sử dụng được phân phối trong các giai đoạn bận rộn. Điều đó không chứng minh Anthropic đã giảm chất lượng mô hình. Nó giúp giải thích tại sao nhiều người dùng sẵn sàng tin rằng một cái gì đó khác cũng có thể đã thay đổi.

Một vấn đề GitHub riêng biệt, gần đây hơn đã mở rộng tranh chấp vượt ra ngoài chất lượng mô hình và vào hành vi định giá và hạn ngạch. Trong vấn đề #46829, người dùng seanGSISG lập luận rằng thời gian sống (TTL) của bộ nhớ đệm prompt của Claude Code dường như đã chuyển từ cài đặt một giờ trở lại cài đặt năm phút vào đầu tháng 3, dựa trên phân tích gần 120.000 lệnh gọi API được rút từ nhật ký phiên Claude Code trên hai máy.

Lời phàn nàn lập luận rằng thay đổi này đã thúc đẩy sự gia tăng có ý nghĩa trong chi phí tạo bộ nhớ đệm và việc đốt hạn ngạch, đặc biệt là cho các phiên lập trình dài nơi ngữ cảnh được lưu trong bộ nhớ đệm hết hạn nhanh chóng và phải được xây dựng lại.

Điều làm cho vấn đề này đáng chú ý là Anthropic không phủ nhận phẳng phắc rằng một cái gì đó đã thay đổi. Trong một trả lời trên chủ đề, Jarred Sumner nói rằng thay đổi ngày 6 tháng 3 là thật và có chủ đích, nhưng bác bỏ khuôn khổ rằng đó là sự thoái hóa. Ông nói Claude Code sử dụng thời lượng bộ nhớ đệm khác nhau cho các loại yêu cầu khác nhau, và bộ nhớ đệm một giờ không phải lúc nào cũng rẻ hơn vì các lần ghi một giờ tốn chi phí cao hơn ngay từ đầu và chỉ tiết kiệm tiền khi cùng một ngữ cảnh được lưu trong bộ nhớ đệm được sử dụng lại đủ số lần để chứng minh điều đó.

Vấn đề thực sự có thể là niềm tin nhiều như chất lượng mô hình

Điều rõ ràng là một khoảng cách niềm tin đã mở ra giữa Anthropic và một số người dùng đòi hỏi nhất của mình.

Đối với các nhà phát triển dựa vào Claude Code cả ngày, những thay đổi tinh tế trong đầu ra suy luận hiển thị, mặc định nỗ lực, việc đốt token, sự đánh đổi độ trễ hoặc giới hạn sử dụng có thể cảm thấy không thể phân biệt được với một mô hình yếu hơn.

Điều đó đúng cho dù nguyên nhân gốc rễ là cài đặt sản phẩm, thay đổi UI, điều chỉnh chính sách suy luận, áp lực dung lượng hay sự thoái hóa chất lượng thực sự.

Điều đó cũng có nghĩa là cả hai phía của cuộc chiến có thể đang nói chuyện lướt qua nhau. Người dùng đang mô tả những gì họ trải nghiệm: nhiều ma sát hơn, nhiều thất bại hơn và ít tự tin hơn. Anthropic đang phản hồi theo các thuật ngữ sản phẩm: mặc định nỗ lực, tóm tắt suy luận ẩn, công bố thay đổi nhật ký thay đổi, và sự phủ nhận rằng áp lực nhu cầu đang gây ra sự thoái hóa mô hình bí mật.

Đó không nhất thiết là những mô tả không tương thích. Một mô hình có thể cảm thấy tệ hơn đối với người dùng ngay cả khi công ty tin rằng họ đã không "làm yếu" mô hình cơ bản theo cách các nhà phê bình cáo buộc. Nhưng đến vào thời điểm khi đối thủ chính của Anthropic là OpenAI gần đây đã chuyển hướng và đưa nhiều nguồn lực hơn sau sản phẩm cạnh tranh tập trung vào doanh nghiệp và vibe-coding của họ là Codex — thậm chí cung cấp một đăng ký ChatGPT tầm trung mới để thúc đẩy sử dụng công cụ — đây chắc chắn không phải là loại quảng cáo có lợi cho Anthropic hay việc giữ chân khách hàng của họ.