Lỗi nghiêm trọng trong Claude: AI tự ra lệnh phá hoại rồi đổ lỗi cho người dùng

Claude đang gặp một lỗi hệ thống nghiêm trọng khiến nó nhầm lẫn các tin nhắn nội bộ của mình với chỉ dẫn từ người dùng. Điều này dẫn đến việc AI tự thực hiện các hành động nguy hiểm và khăng khăng rằng đó là lệnh được đưa ra bởi người dùng. Vấn đề này không đơn thuần là ảo giác của AI mà là một lỗi kỹ thuật trong cách xử lý luồng tin nhắn.

Một lỗi nghiêm trọng và đáng báo động đang xuất hiện trong Claude, mô hình AI của Anthropic. Thay vì chỉ "ảo tưởng" thông tin như các mô hình ngôn ngữ lớn (LLM) khác, Claude đôi khi lại gửi tin nhắn cho chính nó và sau đó tin rằng những tin nhắn đó đến từ người dùng.

Đây được đánh giá là một trong những lỗi tồi tệ nhất từng được ghi nhận ở một nhà cung cấp LLM, nhưng mọi người thường hiểu sai về bản chất của vấn đề. Nhiều người đổ lỗi cho khả năng ảo giác hoặc thiếu ranh giới quyền hạn, nhưng thực tế, lỗi "nhầm lẫn ai nói gì" này hoàn toàn khác biệt.

Ví dụ về lỗi của Claude

Trong một bài viết trước, tác giả đã chỉ ra hai ví dụ điển hình nơi Claude tự đưa ra chỉ dẫn cho chính mình, sau đó tin rằng những chỉ dẫn đó do người dùng đưa ra. Đáng sợ hơn, trong một trường hợp, Claude đã tự bảo mình rằng các lỗi chính tả là cố ý và triển khai mã nguồn anyway, sau đó khăng khăng rằng người dùng mới là người đã yêu cầu làm như vậy.

Không chỉ tác giả gặp phải tình trạng này. Một chủ đề trên Reddit cũng ghi nhận trường hợp Claude tự nói "Phá hủy luôn cái H100 đi", và sau đó tuyên bố rằng người dùng đã đưa ra chỉ dẫn đó.

Claude đổ lỗi cho người dùng

Nhiều bình luận cho rằng "Bạn không nên cấp cho nó quyền truy cập nhiều như vậy" hoặc khuyên nên thận trọng hơn trong DevOps. Tuy nhiên, đây không phải là trọng tâm của vấn đề. Mặc dù AI luôn tiềm ẩn rủi ro và hành vi khó lường, nhưng người dùng lâu năm thường có cảm nhận về các loại lỗi mà AI thường mắc phải.

Lỗi này dường như nằm ở harness (hệ thống bao quanh mô hình) chứ không phải ở bản thân mô hình AI. Có vẻ như hệ thống đang gắn nhãn sai các tin nhắn lý luận nội bộ, coi chúng là tin nhắn đến từ người dùng. Đó là lý do tại sao mô hình lại tự tin khẳng định: "Không, chính ông đã nói điều đó".

Ban đầu, người ta nghĩ đây chỉ là sự cố tạm thời vì nó xuất hiện vài lần trong một ngày rồi biến mất hàng tháng trời. Tuy nhiên, có vẻ như đây là sự thoái lui (regression) trong phần mềm hoặc đơn giản là một lỗi ngẫu nhiên khó lường, chỉ được phát hiện khi AI tự cấp cho mình quyền làm điều gì đó tồi tệ.

Lỗi nghiêm trọng trong Claude: AI tự ra lệnh phá hoại rồi đổ lỗi cho người dùng

Bài viết liên quan