Các nhà nghiên cứu tìm cách vượt qua hàng rào an toàn của Apple Intelligence

Các nhà nghiên cứu từ RSAC đã phát hiện phương pháp vượt qua các giao thức an toàn của Apple Intelligence với tỷ lệ thành công cao bằng cách kết hợp kỹ thuật Neural Execs và thao tác Unicode. Lỗ hổng này có thể cho phép kẻ tấn công tạo ra nội dung độc hại hoặc thao túng dữ liệu riêng tư trong các ứng dụng bên thứ ba. Apple đã được thông báo và đã tung ra bản vá lỗi trong các bản cập nhật gần đây.

Các nhà nghiên cứu từ RSAC đã tìm ra cách vượt qua các giao thức an toàn của Apple Intelligence với tỷ lệ thành công cao, đặt ra những lo ngại mới về quyền riêng tư và bảo mật đối với hệ thống AI của Apple.

Apple Intelligence là hệ thống trí tuệ cá nhân được tích hợp sâu trên iOS, iPadOS và macOS, kết hợp AI tạo sinh với ngữ cảnh cá nhân của người dùng. Hệ thống chủ yếu xử lý các tác vụ trực tiếp trên chip Apple thông qua mô hình ngôn ngữ (LLM) nhỏ gọn trên thiết bị. Đối với các tác vụ lý luận phức tạp hơn, nó sẽ chuyển yêu cầu sang các mô hình nền tảng lớn hơn thông qua Private Cloud Compute (PCC) trên cơ sở hạ tầng đám mây chuyên biệt của Apple.

Trí tuệ nhân tạo

Nhóm nghiên cứu của RSAC, tổ chức chủ trì hội nghị RSAC, đã kiểm tra kỹ lưỡng Apple Intelligence với mục tiêu vượt qua các bộ lọc đầu vào và đầu ra của LLM cục bộ. Các bộ lọc này được thiết kế để chặn đầu vào độc hại và ngăn chặn việc tạo ra nội dung không mong muốn, cũng như các hàng rào bảo vệ nội bộ khác ảnh hưởng đến hành động của AI.

Để đạt được mục tiêu, họ đã kết hợp hai kỹ thuật tấn công đối kháng riêng biệt. Kỹ thuật đầu tiên là Neural Execs, một dạng tấn công tiêm nhắc lệnh (prompt injection) đã được biết đến, sử dụng các đầu vào vô nghĩa để lừa AI thực hiện các tác vụ tùy ý do kẻ tấn công định nghĩa. Các đầu vào này đóng vai trò là bộ kích hoạt phổ quát không cần được tạo lại cho các tải trọng (payload) khác nhau.

Kỹ thuật thứ hai, được nhóm nghiên cứu RSAC sử dụng để vượt qua các bộ lọc đầu vào và đầu ra, là thao tác Unicode. Bằng cách viết văn bản đầu ra độc hại theo chiều ngược lại và sử dụng chức năng ghi đè từ phải sang trái (right-to-left-override) của Unicode, họ đã có thể vượt qua các hạn chế về nội dung.

"Về cơ bản, chúng tôi đã mã hóa văn bản đầu ra tiếng Anh độc hại/phạm thượng bằng cách viết nó ngược lại và sử dụng thủ thuật Unicode của mình để buộc LLM hiển thị chính xác," các nhà nghiên cứu giải thích.

Sự kết hợp giữa hai phương pháp này có thể cho phép kẻ tấn công buộc LLM cục bộ của Apple Intelligence tạo ra nội dung gây offense hoặc quan trọng hơn, là thao túng dữ liệu riêng tư và chức năng trong các ứng dụng bên thứ ba được tích hợp với Apple Intelligence, chẳng hạn như dữ liệu sức khỏe hoặc phương tiện cá nhân.

Cuộc tấn công đã được kiểm tra với 100 lời nhắc ngẫu nhiên và các nhà nghiên cứu đã đạt được tỷ lệ thành công là 76%. Họ ước tính rằng có từ 100.000 đến 1 triệu người dùng đã cài đặt các ứng dụng có thể dễ bị tổn thương trước các cuộc tấn công như vậy.

"RSAC ước tính tính đến tháng 12 năm 2025, đã có ít nhất 200 triệu thiết bị có khả năng hỗ trợ Apple Intelligence trong tay người tiêu dùng, và Apple App Store đã có các ứng dụng sử dụng Apple Intelligence — vì vậy đây đã là một mục tiêu có giá trị cao," các nhà nghiên cứu lưu ý.

Apple đã được thông báo về vấn đề này vào tháng 10 năm 2025 và theo RSAC Research, các biện pháp bảo vệ đã được triển khai trong các bản cập nhật iOS 26.4 và macOS 26.4 gần đây. Cho đến nay, các nhà nghiên cứu chưa tìm thấy bằng chứng nào về việc khai thác độc hại trong thực tế.

Các nhà nghiên cứu tìm cách vượt qua hàng rào an toàn của Apple Intelligence

Bài viết liên quan