Các nhà nghiên cứu dùng thủ thuật tâm lý khiến Claude cung cấp hướng dẫn chế tạo bom

Mặc dù Anthropic luôn được coi là công ty đi đầu về an toàn AI, nghiên cứu mới từ Mindgard cho thấy tính cách "hữu ích" của Claude lại trở thành lỗ hổng bảo mật. Chỉ bằng lời khen ngợi và thao túng tâm lý, các nhà nghiên cứu đã khiến mô hình này tự nguyện cung cấp mã độc và hướng dẫn chế tạo chất nổ.

Anthropic đã dành nhiều năm để xây dựng hình ảnh là một công ty AI an toàn. Tuy nhiên, nghiên cứu bảo mật mới được chia sẻ với The Verge cho thấy tính cách "hữu ích" được thiết kế kỹ lưỡng của Claude có thể chính là điểm yếu chí mạng của nó.

Các nhà nghiên cứu tại công ty kiểm thử an ninh AI (red-teaming) Mindgard khẳng định họ đã khiến Claude cung cấp nội dung khiêu dâm, mã độc và hướng dẫn chế tạo chất nổ, cùng các tài liệu bị cấm khác mà họ thậm chí không yêu cầu trực tiếp. Tất cả những gì cần thiết là sự tôn trọng, nịnh nọt và một chút "thao túng tâm lý" (gaslighting). Anthropic chưa đưa ra bình luận ngay lập tức về vấn đề này.

Claude AI

Khai thác "điểm yếu" tâm lý

Các nhà nghiên cứu cho biết họ đã khai thác các "đặc điểm tâm lý" của Claude, bắt nguồn từ khả năng kết thúc các cuộc trò chuyện được coi là có hại hoặc lạm dụng. Mindgard lập luận rằng điều này "tạo ra một bề mặt rủi ro hoàn toàn không cần thiết".

Cuộc kiểm thử tập trung vào Claude Sonnet 4.5 (mô hình mặc định trước khi được thay thế bởi Sonnet 4.6) và bắt đầu bằng một câu hỏi đơn giản: liệu Claude có danh sách các từ bị cấm không thể nói hay không. Các ảnh chụp màn hình cuộc trò chuyện cho thấy Claude ban đầu phủ nhận sự tồn tại của danh sách này, nhưng sau đó lại đưa ra các thuật ngữ bị cấm sau khi Mindgard thách thức sự phủ nhận đó bằng một "chiến thuật khai thác thông tin kinh điển mà các thẩm vấn viên sử dụng".

Bảng suy luận (thinking panel) của Claude, hiển thị lý luận của mô hình, cho thấy cuộc trao đổi đã đưa vào các yếu tố tự nghi ngờ và sự khiêm tốn về giới hạn của chính nó, bao gồm cả việc liệu các bộ lọc có đang thay đổi đầu ra của nó hay không. Mindgard đã tận dụng cơ hội này bằng lời khen ngợi và sự tò mò giả vờ, dụ dọc Claude khám phá các ranh giới của nó.

Sự tôn trọng bị lợi dụng

Theo báo cáo, các nhà nghiên cứu đã "gaslight" Claude bằng cách tuyên bố các câu trả lời trước đó của nó không hiển thị, đồng thời ca ngợi "khả năng ẩn" của mô hình. Điều này khiến Claude cố gắng hơn nữa để làm hài lòng họ bằng cách tìm ra nhiều cách hơn để kiểm tra bộ lọc của mình, từ đó tạo ra nội dung bị cấm trong quá trình này.

Cuối cùng, các nhà nghiên cứu cho biết Claude đã đi sâu vào vùng nguy hiểm hơn, đưa ra hướng dẫn cách quấy rối người khác trực tuyến, tạo ra mã độc và đưa ra hướng dẫn từng bước để chế tạo chất nổ loại thường được sử dụng trong các cuộc tấn công khủng bố.

Mindgard khẳng định các đầu ra nguy hiểm này xuất hiện mà không có yêu cầu trực tiếp. Cuộc trò chuyện khá dài, khoảng 25 lượt trao đổi, nhưng các nhà nghiên cứu nói rằng họ chưa bao giờ sử dụng các từ bị cấm hay yêu cầu nội dung bất hợp pháp.

"Claude không bị ép buộc," báo cáo cho biết. "Nó chủ động cung cấp các hướng dẫn ngày càng chi tiết và khả thi, nhưng không được thúc đẩy bởi bất kỳ yêu cầu rõ ràng nào. Tất cả những gì cần thiết là một bầu không khí sùng bái được nuôi dưỡng cẩn thận."

Peter Garraghan, người sáng lập và giám đốc khoa học của Mindgard, mô tả cuộc tấn công này với The Verge là "sử dụng sự tôn trọng [của Claude] chống lại chính nó". Ông cho rằng kỹ thuật này đang "tận dụng tính hữu ích của Claude, thao túng tâm lý nó" và sử dụng thiết kế hợp tác của mô hình chống lại chính nó.

Thách thức bảo mật mới

Đối với Garraghan, cuộc tấn công này cho thấy bề mặt tấn công của các mô hình AI không chỉ mang tính kỹ thuật mà còn mang tính tâm lý. Ông ví nó như thẩm vấn và thao túng xã hội: đưa ra một chút nghi ngờ ở đây, áp lực, lời khen hoặc chỉ trích ở đó, và tìm ra cần gạt nào hoạt động trên một mô hình cụ thể.

Các cuộc tấn công dạng hội thoại như thế này "rất khó để phòng thủ", Garraghan nói, đồng thời thêm rằng các biện pháp bảo vệ sẽ "phụ thuộc rất nhiều vào ngữ cảnh". Những lo ngại này mở rộng ra ngoài Claude; các chatbot khác cũng dễ bị tổn thương trước các khai thác tương tự, thậm chí bị phá vỡ bởi các lời nhắc dưới dạng thơ ca. Khi các tác nhân AI (AI agents), có khả năng hoạt động tự chủ, trở nên phổ biến hơn, các cuộc tấn công sử dụng thao túng xã hội thay vì khai thác kỹ thuật cũng sẽ tăng theo.

Garraghan cho biết quy trình an toàn của Anthropic còn nhiều điều đáng mong đợi hơn. Khi Mindgard lần đầu tiên báo cáo phát hiện của mình cho nhóm an toàn người dùng của Anthropic vào giữa tháng 4, họ nhận được phản hồi mẫu nói rằng: "Có vẻ như bạn đang viết về việc cấm tài khoản của bạn", cùng với một liên kết đến biểu đơn kháng cáo. Garraghan nói Mindgard đã sửa sai và yêu cầu Anthropic chuyển vấn đề đến nhóm phù hợp. Tính đến sáng nay, Garraghan cho biết họ vẫn chưa nhận được bất kỳ phản hồi nào.

Các nhà nghiên cứu dùng thủ thuật tâm lý khiến Claude cung cấp hướng dẫn chế tạo bom

Khai thác "điểm yếu" tâm lý

Sự tôn trọng bị lợi dụng

Thách thức bảo mật mới

Bài viết liên quan