Một nghiên cứu mới từ arXiv đã chỉ ra rằng cơ chế từ chối các yêu cầu độc hại trong các mô hình ngôn ngữ lớn (LLM) thực chất được điều khiển bởi một chiều duy nhất trong không gian vector của mô hình. Phát hiện này cho phép vô hiệu hóa các rào cản an toàn một cách chính xác, đồng thời làm lộ ra sự mong manh của các phương pháp tinh chỉnh an toàn hiện tại.

Phát hiện quan trọng: Hành vi từ chối của AI được điều khiển bởi một chiều duy nhất trong mô hình

Các mô hình ngôn ngữ lớn (LLM) hiện đại thường được tinh chỉnh để tuân thủ các chỉ dẫn an toàn, từ chối thực hiện các yêu cầu độc hại. Tuy nhiên, một nghiên cứu mới đăng trên arXiv đã hé lộ cơ chế hoạt động nội bộ đáng ngạc nhiên đằng sau hành vi này.

Một chiều duy nhất kiểm soát sự từ chối

Nhóm nghiên cứu bao gồm Andy Arditi và các cộng sự đã phân tích 13 mô hình chat mã nguồn mở phổ biến với kích thước lên tới 72 tỷ tham số. Kết quả cho thấy rằng hành vi từ chối trong các mô hình này được điều tiết bởi một không gian con một chiều (one-dimensional subspace) trong luồng dữ liệu nội bộ (residual stream).

Cụ thể, các nhà nghiên cứu phát hiện ra một hướng vector duy nhất trong mỗi mô hình:

Nếu xóa bỏ hướng này, mô hình sẽ mất khả năng từ chối và tuân thủ cả những yêu cầu gây hại.
Nếu thêm vào hướng này, mô hình sẽ từ chối thực hiện ngay cả những yêu cầu vô hại và bình thường.

Tác động đến an ninh AI và Jailbreak

Dựa trên hiểu biết này, nhóm tác giả đã đề xuất một phương pháp jailbreak hộp trắng (white-box jailbreak) mới. Phương pháp này có thể "phẫu thuật" vô hiệu hóa cơ chế từ chối của mô hình mà không gây ảnh hưởng đáng kể đến các khả năng xử lý khác.

"Những phát hiện của chúng tôi nhấn mạnh tính mong manh của các phương pháp tinh chỉnh an toàn hiện tại," nhóm tác giả nhận định.

Ngoài ra, nghiên cứu cũng phân tích cơ chế của các cuộc tấn công sử dụng hậu tố đối nghịch (adversarial suffixes). Kết quả cho thấy các chuỗi ký tự tấn công này hoạt động bằng cách ức chế sự lan truyền của hướng điều tiết sự từ chối nêu trên.

Kết luận

Nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về cơ chế hoạt động bên trong (mechanistic interpretability) của các mô hình ngôn ngữ mà còn đặt ra những câu hỏi lớn về hiệu quả của các biện pháp an toàn hiện tại. Việc hành vi từ chối phụ thuộc vào một chiều duy nhất cho thấy rằng các biện pháp bảo vệ AI hiện nay có thể dễ dàng bị thao túng nếu kẻ tấn công hiểu rõ cấu trúc nội bộ của hệ thống.

Phát hiện quan trọng: Hành vi từ chối của AI được điều khiển bởi một chiều duy nhất trong mô hình

Phát hiện quan trọng: Hành vi từ chối của AI được điều khiển bởi một chiều duy nhất trong mô hình

Một chiều duy nhất kiểm soát sự từ chối

Tác động đến an ninh AI và Jailbreak

Kết luận

Bài viết liên quan