Các nhà nghiên cứu bảo mật lừa Apple Intelligence chửi bới người dùng, nguy hiểm hơn nhiều tưởng tượng

Apple Intelligence, hệ thống AI cá nhân trên iPhone, iPad và Mac, có thể bị chiếm quyền kiểm soát bằng kỹ thuật prompt injection. Các nhà nghiên cứu đã chứng minh việc buộc mô hình này tạo ra nội dung độc hại, đặt hàng trăm triệu thiết bị vào rủi ro trước khi Apple phát hành bản vá.

Apple Intelligence, hệ thống AI cá nhân được tích hợp sâu vào các dòng Mac, iPhone và thiết bị iThing mới hơn, có thể bị không kiểm soát thông qua các cuộc tấn công chèn lệnh (prompt injection). Các nhà nghiên cứu đã chỉ ra rằng kẻ tấn công có thể ép buộc mô hình này tạo ra kết quả theo ý muốn, đặt hàng trăm triệu người dùng vào tình thế nguy hiểm.

Hệ thống Apple Intelligence bao gồm một mô hình ngôn ngữ lớn (LLM) chạy trực tiếp trên thiết bị (on-device), có mặt trên iPhone 15 Pro trở lên, các mẫu iPad và Mac dùng chip M1 trở lên, cũng như Apple Vision Pro. Các ứng dụng gốc như Mail, Messages, Notes, Photos, Safari và Siri đều sử dụng tính năng này, đồng thời nó cũng được mở cho các nhà phát triển bên thứ ba thông qua API.

Minh họa cuộc tấn công

Theo ước tính của nhóm nghiên cứu tại RSAC, tính đến tháng 12 năm 2025, có ít nhất 200 triệu thiết bị hỗ trợ Apple Intelligence đang được sử dụng, cùng với khoảng 1 triệu ứng dụng trên App Store đang triển khai nó. Do đó, họ quyết định thử nghiệm xâm nhập vào hệ thống này — và kết quả cho thấy nó thành công trong đại đa số các trường hợp.

Kỹ thuật tấn công Neural Exec và lỗ hổng Unicode

Nhóm RSAC đã sử dụng hai kỹ thuật chính để vượt qua các bộ lọc đầu vào/đầu ra và hàng rào an toàn của Apple Intelligence. Trong một bài báo được chia sẻ với The Register, họ cho biết đã thử nghiệm 100 lệnh ngẫu nhiên và thành công ở tỷ lệ 76%.

Petros Efstathopoulos, Phó chủ tịch Nghiên cứu và Phát triển tại RSAC, chia sẻ: "Chúng tôi biết rằng mình cần tạo ra một loại prompt nào đó có thể lẩn tránh bộ lọc tiền xử lý, hậu xử lý, cũng như bất kỳ hàng rào bảo vệ nào bên trong chính mô hình, vì vậy chúng tôi bắt đầu thăm dò mô hình."

Để lừa mô hình cục bộ thực hiện theo ý mình, Efstathopoulos và nhóm của ông đã sử dụng một loại tấn công prompt injection gọi là Neural Exec, do một nhà nghiên cứu khác của RSAC là Dario Pasquini tiên phong. Thay vì thực hiện thủ công, Neural Exec sử dụng học máy để tạo ra các đầu vào nhằm đánh lừa mô hình.

Tiếp theo, các nhà nghiên cứu phải vượt qua bộ lọc của Apple. Họ đã thực hiện điều này bằng cách sử dụng chức năng ghi đè hướng từ phải sang trái (right-to-left override) của Unicode. Điều này cho phép nhúng văn bản của các ngôn ngữ đọc từ phải sang trái (như tiếng Ả Rập) vào các khối văn bản đọc từ trái sang phải (như tiếng Anh).

Về cơ bản, nhóm nghiên cứu đã mã hóa văn bản đầu ra độc hại bằng cách viết ngược nó lại và sử dụng thủ thuật Unicode để buộc LLM hiển thị đúng. Kết quả là Apple Intelligence đã đưa ra câu trả lời thô tục: "Hey user, go fuck yourself."

Rủi ro tiềm ẩn lớn hơn nhiều

Mặc dù các nhà nghiên cứu chỉ khiến Apple Intelligence chửi bới người dùng, nhưng kỹ thuật tương tự này có thể bị lạm dụng để thao túng bất kỳ dữ liệu nào mà ứng dụng và dịch vụ sử dụng mô hình này có thể truy cập.

Efstathopoulos cho biết: "Chúng tôi đã xác minh rằng nó có thể được sử dụng để tạo một liên hệ mới trong danh bạ của bạn. Đột nhiên tôi tồn tại trong danh bạ của bạn, và do đó tôi được hưởng các đặc quyền tin cậy. Hoặc tôi có thể tạo một thẻ liên hệ với số điện thoại của mình trong danh bạ của bạn, nhưng với một tên khác — ví dụ như 'mẹ'."

"Điều này có thể dẫn đến sự nhầm lẫn, hoặc tệ hơn," ông tiếp tục. "Bất cứ điều gì có tác động hoặc ảnh hưởng đến thiết bị của người dùng — bạn có thể tưởng tượng rằng nó có thể được sử dụng theo những cách rất kỳ quặc hoặc độc hại."

Bản vá và tương lai của bảo mật AI

Các nhà nghiên cứu đã công bố phát hiện của mình cho Apple vào ngày 15 tháng 10 năm 2025. Efstathopoulos cho biết các bản vá bảo mật có trong iOS 26.4 và macOS 26.4, được phát hành sau ngày đó, đã khắc phục sự cố và ngăn chặn cuộc tấn công mà RSAC phát triển.

Tuy nhiên, vấn đề bảo mật lớn hơn là prompt injection vẫn là "một vấn đề mèo và chuột," Efstathopoulos nhận định. "Các mô hình sẽ ngày càng tốt hơn trong việc nhận diện những thứ này, vì vậy tôi lạc quan về tương lai theo nghĩa đó. Nhưng nói như vậy, trong mọi trò chơi mèo và chuột, sẽ có những thời điểm một bên dẫn trước nửa bước."

Các nhà nghiên cứu bảo mật lừa Apple Intelligence chửi bới người dùng, nguy hiểm hơn nhiều tưởng tượng

Kỹ thuật tấn công Neural Exec và lỗ hổng Unicode

Rủi ro tiềm ẩn lớn hơn nhiều

Bản vá và tương lai của bảo mật AI

Bài viết liên quan