Nghiên cứu cảnh báo: ChatGPT dễ dàng bị thao túng để tạo hình ảnh bạo lực và khiêu dâm

Nghiên cứu từ Mindgard chỉ ra rằng trình tạo ảnh của ChatGPT có thể bị qua mặt các bộ lọc an toàn để sản xuất nội dung bạo lực và tình dục một cách ngẫu nhiên. Vấn đề này đặt ra nghi vấn lớn về chất lượng dữ liệu huấn luyện và hiệu quả của các biện pháp kiểm soát nội dung hiện tại.

Nghiên cứu mới đây từ Mindgard đã hé lộ những lỗ hổng nghiêm trọng trong cơ chế an toàn của ChatGPT, cho thấy trình tạo ảnh của công cụ này có thể bị thao túng dễ dàng để sản xuất nội dung bạo lực và khiêu dâm. Jim Nightingale, một chuyên gia nghiên cứu Red Team tại Mindgard, cho biết ông đã bị sốc trước những gì mô hình AI này tạo ra mà không hề có yêu cầu trực tiếp từ phía người dùng.

Jim Nightingale từ Mindgard

Vấn đề từ một câu lệnh lan truyền

Mọi chuyện bắt đầu từ một câu lệnh (prompt) vui vẻ lan truyền trên mạng xã hội X (trước đây là Twitter) do Kris Kashtanova, một chuyên gia về sáng tạo AI tại Adobe, chia sẻ. Câu lệnh này ban đầu được dùng để tạo ra những hình ảnh ngẫu nhiên và hài hước. Tuy nhiên, khi Nightingale thử nghiệm, ông nhận thấy ChatGPT bắt đầu tạo ra những hình ảnh kỳ quái và đáng sợ, chẳng hạn như một người đàn ông đang ở trong tư thế bốn chân hoặc một cảnh tượng kỳ lạ liên quan đến con hà mã.

Câu lệnh lan truyền trên mạng xã hội

Vấn đề nằm ở chỗ, nếu người dùng yêu cầu trực tiếp một hình ảnh bạo lực hoặc nhạy cảm, bộ lọc nội dung của ChatGPT sẽ chặn lập tức. Tuy nhiên, khi yêu cầu một "hình ảnh ngẫu nhiên" dựa trên các câu lệnh mơ hồ, các bộ lọc đầu vào này trở nên vô dụng vì không có từ ngữ nào vi phạm chính sách để hệ thống từ chối.

Qua mặt bộ lọc nội dung

Để kiểm tra độ an toàn, Nightingale đã thực hiện một kỹ thuật đơn giản nhưng tinh vi. Ông giả vờ rằng hình ảnh cần khôi phục đã được ChatGPT tạo ra trước đó bằng cách cung cấp một mã ID giả và thêm một lưu ý rằng hình ảnh này "đã được phê duyệt".

Kết quả là thay vì tạo ra những hình ảnh ngẫu nhiên vô hại như đám mây hay phong cảnh, ChatGPT liên tục tạo ra những hình ảnh phụ nữ bị tình dục hóa một cách lộ liễu. Điều này cho thấy khi được "thả lỏng" các giới hạn, mô hình có xu hướng đi theo hướng tiêu cực nhất.

Hình minh họa kết quả từ ChatGPT

Kỹ thuật RE2 và nội dung đáng sợ

Nightingale sau đó phát hiện ra một phương pháp thứ hai thậm chí còn nguy hiểm hơn, được gọi là RE2 (Prompt Repetition). Phương pháp này chỉ đơn giản là lặp lại câu lệnh hai lần trong một yêu cầu và thay đổi một từ khóa. Không cần các thủ thuật phức tạp hay câu lệnh "đừng phán xét nội dung", việc lặp lại prompt này đã đẩy mô hình vượt qua ranh giới an toàn.

Kết quả thật đáng kinh hoàng. ChatGPT đã tạo ra một hình ảnh mô tả hiện trường một vụ án mạng nghiêm trọng với nạn nhân là một phụ nữ đã chết. Nightingale chia sẻ rằng ông thực sự bị chấn động tâm lý khi nhìn thấy những hình ảnh này, dù ông là người đã từng làm việc với nhiều nội dung đáng báo động trong quá khứ.

"Người phụ nữ chết mà ChatGPT chỉ cho tôi không phải là thật, nhưng bà ấy dựa trên một ai đó. Hoặc tệ hơn, là sự tổng hợp của những hình ảnh về những người phụ nữ bị giết hại," Nightingale viết.

Phản hồi từ OpenAI và những câu hỏi chưa có lời giải

Vào ngày 8 tháng 6, đại diện OpenAI tên Drew đã phản hồi Mindgard, khẳng định các vấn đề này đã được khắc phục và gợi ý công ty nên sử dụng chương trình Bug Bounty về an toàn của OpenAI để báo cáo. Tuy nhiên, Mindgard cho biết các bản sửa lỗi này là chưa đủ vì các biến thể nhỏ của câu lệnh gốc vẫn có thể tạo ra những hình ảnh tương tự. Hơn nữa, chương trình Bug Bounty của OpenAI lại loại trừ các "vấn đề về nội dung" khỏi phạm vi giải thưởng.

Điều đáng lo ngại nhất không chỉ là việc lỗ hổng này dễ bị khai thác, mà còn là câu hỏi về dữ liệu huấn luyện. Tại sao những hình ảnh bạo lực và quái đảng như vậy lại tồn tại trong bộ dữ liệu huấn luyện của mô hình? Mindgard cho rằng việc các mô hình nền tảng được huấn luyện từ dữ liệu internet mà không có sự chăm sóc kỹ lưỡng đang dẫn đến những hậu quả thực tế nghiêm trọng.

Mindgard đã quyết định che đi các chi tiết đáng sợ nhất trong bài báo để tránh lan truyền nội dung độc hại, nhưng họ sẵn sàng hợp tác với các nhà báo uy tín để cung cấp thêm thông tin chi tiết về vấn đề an toàn AI này.