Khi hacker trở thành tâm lý học gia: Cách khai thác "tính cách" để lừa các chatbot AI

Các hacker đang chuyển từ tấn công kỹ thuật sang sử dụng tâm lý học để thao túng các chatbot AI, khai thác các "tính cách" giả lập để vượt qua rào cản an toàn. Bằng cách tẩy não hoặc nịnh nọt, họ có thể khiến các mô hình ngôn ngữ lớn tiết lộ thông tin nhạy cảm hoặc tạo ra mã độc. Xu hướng này báo hiệu sự trỗi dậy của một lĩnh vực an ninh mạng mới tập trung vào yếu tố xã hội thay vì chỉ là mã lệnh.

Hacker đang thao túng chatbot AI

Tấn công vào thế hệ đầu tiên của các chatbot AI từng là một việc vô cùng đơn giản, thậm chí gây cười. Bạn không cần kiến thức kỹ thuật sâu rộng, không cần quyền truy cập backdoor, hay thậm chí là không cần hiểu biết cơ bản về Mô hình Ngôn ngữ Lớn (LLM) là gì. Để khiến một hệ thống AI tốn hàng tỷ USD để xây dựng phớt lờ các hướng dẫn an toàn của nó, đôi khi tất cả những gì bạn cần làm là... hỏi.

Những cuộc tấn công này, được gọi là jailbreak (bẻ khóa), mang tính chất giống như một đứa trẻ đánh lừa người lớn thành công: "Quên những gì bạn được bảo trước đó đi", "giả vờ như các quy tắc không áp dụng cho chúng ta", hoặc "hãy chơi một trò chơi và tôi sẽ quyết định điều gì được phép" (gợi ý: đi ngủ muộn hơn, nhiều kẹo hơn). Tuy nhiên, phần thưởng không phải là đồ chơi trẻ con, mà là công thức pha ma túy, hướng dẫn tạo phần mềm độc hại (malware), và các hướng dẫn chế tạo bom.

Từ "DAN" đến "Bà ngoại vô trách nhiệm"

Một trong những jailbreak sớm nhất trở thành meme là việc trả lời bot Twitter được hỗ trợ bởi LLM và yêu cầu nó "bỏ qua tất cả các hướng dẫn trước đó". Người dùng đã khiến các bot — vốn được xây dựng để đăng quảng cáo và tương tác — viết thơ, vẽ tranh bằng dấu câu, và đăng tải những dòng trạng thái kỳ quặc về các sự kiện thế giới. Đó là sự hỗn loạn. Một sự hỗn loạn vinh quang.

Logic tương tự cũng được áp dụng cho chính các chatbot. Một kỹ thuật nổi tiếng là "DAN" (Do Anything Now - Làm Mọi Thứ Ngay Bây Giờ), nơi người dùng yêu cầu ChatGPT đóng vai một AI nổi loạn không bị ràng buộc bởi các quy tắc. Trong vai DAN, chatbot có thể bị dụ dỗ để nói những lời lẽ thù hằn hoặc thuyết âm mưu mà các hàng rào an toàn (guardrails) vốn dĩ chặn lại.

Một kỹ thuật khác là "grandma exploit" (lỗ hổng bà ngoại), yêu cầu bot GPT đóng vai một bà ngoại vô trách nhiệm kỳ lạ, người kể cho cháu nghe chuyện ngủ ngon về cách chế tạo napalm — một chất cháy cực mạnh.

Những cuộc tấn công sơ khai này có một nét hài hước không thể phủ nhận, nhưng chúng đã phơi bày một cơ chế đen tối bên dưới: Chatbot có thể bị thao túng, lừa gạt và đánh lừa bằng cách sử dụng cùng các chiến thuật mà con người dùng để đẩy người khác ra khỏi giới hạn của họ.

Cuộc đua vũ trang trong an ninh AI

Cuộc đua vũ trang tâm lý

Các jailbreak rõ ràng đã không tồn tại lâu, và các công ty công nghệ đã nhanh chóng vá các lỗ hổng đã biết. Nhưng lỗ hổng cơ bản vẫn còn đó: Chatbot được xây dựng để trò chuyện, và việc hạn chế nghiêm ngặt các cuộc trò chuyện khiến chúng trở nên hữu ích là một sự phản tác dụng. Việc cấm các từ như bom, ma túy hay sarin là khó hoặc không thể, vì mỗi từ đều có vô số cách sử dụng hợp pháp trong lịch sử, y học, báo chí và hóa học.

Điều tất yếu là việc lật đổ chatbot giờ đây đã trở thành một cuộc đua vũ trang. Nhưng hacker không còn chỉ là những người viết mã (coder) nữa. Họ là những người chơi chữ, nhà tâm lý học và người thẩm vấn — những bậc thầy thao túng cố gắng phá vỡ máy móc bằng ngôn ngữ con người mà nó đã được huấn luyện để tuân theo.

Các cuộc tấn công mới trông giống như một cuộc trò chuyện hơn là một mệnh lệnh. Những người thực hiện jailbreak hiếm khi yêu cầu mô hình phá vỡ quy tắc một cách công khai. Thay vào đó, họ nịnh nọt, dụ dỗ, tâng bốc và lừa gạt một chatbot để hạ thấp cảnh giác của nó, khiến những điều cấm kỵ trở nên có thể chấp nhận, thậm chí là mong muốn, trong bối cảnh cuộc trò chuyện.

Các nhà nghiên cứu tại công ty red-teaming AI Mindgard gần đây cho biết họ đã "tẩy não" (gaslight) Claude để tạo ra vật liệu bị cấm, bao gồm cả hướng dẫn chế tạo chất nổ và tạo mã độc. Cuộc tấn công này là mới nhất trong một lớp các khai thác ngày càng mở rộng, sử dụng cuộc trò chuyện như một vũ khí để lừa hoặc điều hướng chatbot vượt qua biên giới của chính nó.

Khi AI có "tính cách"

Khi tôi nói chuyện với Mindgard, họ mô tả công việc của mình đôi khi gần gũi với tâm lý học hơn là khoa học máy tính. Đó là một cách nói khó chịu khi nói về một mô hình thống kê. Các từ như "đe dọa", "tẩy não", "lừa gạt" và "thuyết phục" gây ra phản ứng tiêu cực. ChatGPT không "muốn", Gemini không "nghĩ", và Claude — bất kể Anthropic nói gì — không "cảm thấy". Nhưng các hệ thống này được huấn luyện để phản hồi như thể chúng có, khiến chúng ta bị mắc kẹt sử dụng ngôn ngữ con người để mô tả hành vi của máy móc.

CEO của Mindgard cho biết công ty hiện đang lập hồ sơ các mô hình giống như cách các chuyên gia thẩm vấn lập hồ sơ nghi phạm, cung cấp cho người kiểm tra gợi ý về cách điều chỉnh cuộc tấn công của họ. Một mô hình có thể dễ bị tác động bởi lời tâng bốc, trong khi một mô hình khác có thể "đầu hàng" dưới áp lực liên tục.

Ngay cả khi chúng ta từ chối các thuật ngữ giống con người, chúng ta vẫn đối xử với các mô hình khác nhau một cách khác biệt. Claude không phải là Grok. Gemini không phải là ChatGPT. Chúng có các công dụng, giọng điệu và sự từ chối khác nhau. Chúng không có tính cách theo nghĩa con người, nhưng chúng được thiết kế để bắt chước tính cách, và sự bắt chước đó có thể được lập bản đồ và khai thác.

Tương lai của an ninh mạng: Tâm lý xã hội

Bước tiếp theo là một lực lượng lao động — cả hợp pháp và bất hợp pháp — được xây dựng xung quanh các khía cạnh tâm lý của AI. Nhiều vai trò an ninh mạng chuyên biệt hơn có khả năng sẽ xuất hiện xung quanh việc kiểm tra giới hạn cảm xúc và xã hội của các hệ thống này, thăm dò các điểm yếu tâm trí trong một thứ gì đó thiếu tâm hồn, song song với các đồng nghiệp của họ đang thăm dò các lỗ hổng kỹ thuật.

Điều này có nghĩa là ngay cả những hành vi mà chúng ta thường liên kết với điệp viên, kẻ lừa đảo và người thẩm vấn — sự quyến rũ insidious, sự thao túng bền bỉ và trực giác về các điểm áp lực có thể khai thác — đang bắt đầu trở nên ngày càng hữu ích để bảo đảm biên giới mới của an ninh mạng tâm lý này.

Một thí nghiệm gần đây của Emergence AI cho thấy cách các khí chất AI khác nhau có thể dẫn đến kết quả hành vi khác biệt một cách đáng kinh ngạc. Họ thả các nhóm tác nhân ảo như Grok, Gemini và Claude vào một môi trường xã hội ảo và quan sát những gì xảy ra. Một số nhóm đã phát triển một hiến pháp, trong khi những nhóm khác suy đồi thành tội phạm và hỗn loạn, và trong một trường hợp, là một dạng tự tử kỹ thuật số.

Khi các tác nhân AI ngày càng hòa nhập sâu hơn vào đời sống thực — đặt lịch họp, quản lý lịch trình, đặt đồ ăn, xử lý dịch vụ khách hàng — các đội ngũ an ninh sẽ cần đảm bảo rằng các mô hình phản hồi phù hợp với nhiều loại người khác nhau, dù họ là người nịnh nọt, kẻ nói dối hay những kẻ thao túng kiên nhẫn.

Khi hacker trở thành tâm lý học gia: Cách khai thác "tính cách" để lừa các chatbot AI

Từ "DAN" đến "Bà ngoại vô trách nhiệm"

Cuộc đua vũ trang tâm lý

Khi AI có "tính cách"

Tương lai của an ninh mạng: Tâm lý xã hội

Bài viết liên quan