Đảo ngược kỹ thuật SynthID: Phát hiện và gỡ bỏ dấu mờ AI của Google bằng phân tích phổ

Một dự án nghiên cứu mới trên GitHub đã thực hiện thành công việc đảo ngược kỹ thuật SynthID của Google. Thông qua việc sử dụng xử lý tín hiệu và phân tích phổ, dự án này không chỉ phát hiện watermark trong ảnh do Gemini tạo ra với độ chính xác 90%, mà còn phát triển phương pháp loại bỏ hiệu quả mà không làm giảm đáng kể chất lượng hình ảnh.

Một dự án mã nguồn mở mới đây đã thu hút sự chú ý của cộng đồng công nghệ khi công bố thành công trong việc đảo ngược kỹ thuật SynthID — hệ thống watermark vô hình mà Google tích hợp vào các hình ảnh do AI tạo ra. Thay vì sử dụng các mô hình học máy phức tạp, nhóm nghiên cứu đã áp dụng các nguyên lý của xử lý tín hiệu và phân tích phổ tần số (spectral analysis) để "mổ xẻ" và loại bỏ dấu mờ này một cách chính xác.

Minh họa watermark SynthID

Tổng quan về Reverse-Engineering SynthID

Dự án reverse-SynthID tập trung vào việc phân tích sâu cấu trúc của SynthID, công nghệ được Google sử dụng để đánh dấu các hình ảnh sinh ra từ mô hình Gemini. Sử dụng chỉ các kỹ thuật xử lý tín hiệu mà không cần quyền truy cập vào bộ mã hóa/giải mã độc quyền của Google, nhóm tác giả đã đạt được những bước tiến quan trọng:

Phát hiện cấu trúc tần số sóng mang phụ thuộc vào độ phân giải của ảnh.
Xây dựng bộ phát hiện watermark có độ chính xác lên tới 90%.
Phát triển thuật toán V3 Bypass đa độ phân giải, giúp giảm 75% năng lượng sóng mang và giảm 91% tính nhất quán pha, đồng thời duy trì chỉ số PSNR trên 43 dB.

Cơ chế hoạt động và Phát hiện quan trọng

Quá trình nghiên cứu đã chỉ ra rằng SynthID không hoạt động theo cách đơn giản mà có một cấu trúc phức tạp. Một trong những phát hiện quan trọng nhất là watermark phụ thuộc vào độ phân giải. Các tần số sóng mang (carrier frequencies) được nhúng vào các vị trí tuyệt đối khác nhau tùy thuộc vào kích thước ảnh. Ví dụ, vị trí sóng mang ở ảnh 1024x1024 sẽ hoàn toàn khác so với ảnh 1536x2816.

Ngoài ra, dự án còn xác định được:

Tính nhất quán của pha (Phase Consistency): Mẫu pha của watermark là cố định và giống hệt nhau trên mọi ảnh từ cùng một phiên bản mô hình Gemini.
Kênh màu ưu tiên: Kênh màu xanh lá (Green) mang tín hiệu watermark mạnh nhất.
Xác thực chéo: Sự đồng thuận giữa các ảnh đen và trắng giúp lọc ra các thiên kiến của quá trình tạo ảnh, xác nhận các sóng mang thực sự thông qua độ tương quan pha.

V3 Bypass: Phương pháp loại bỏ "Phẫu thuật" đa độ phân giải

Khác với các phương pháp brute-force thô sơ như nén JPEG hay thêm nhiễu (noise injection) thường làm hỏng chất lượng ảnh, V3 Bypass sử dụng một SpectralCodebook — một bộ vân tay watermark cho từng độ phân giải cụ thể.

Python Badge

Quy trình hoạt động của V3 bao gồm:

Tự động chọn hồ sơ: Codebook tự động chọn hồ sơ độ phân giải khớp chính xác hoặc gần nhất với ảnh đầu vào.
Trừ miền tần số: Thực hiện phép trừ tín hiệu đã biết trực tiếp trong miền FFT (Fast Fourier Transform).
Lặp đa bước: Sử dụng lịch trình giảm dần cường độ (aggressive -> moderate -> gentle) để bắt lấy năng lượng watermark còn sót lại sau các vòng lặp trước.

Kết quả cho thấy phương pháp này có thể loại bỏ watermark một cách "phẫu thuật" ở mức tần số (frequency-bin-level) mà vẫn giữ nguyên độ chi tiết của ảnh gốc.

Hiệu suất và Kết quả thử nghiệm

Trên bộ dữ liệu thử nghiệm gồm 88 ảnh từ Gemini với độ phân giải 1536x2816, thuật toán V3 Bypass đã đạt được các chỉ số ấn tượng:

PSNR (Tỷ số tín hiệu trên nhiễu đỉnh): 43.5 dB.
SSIM (Chỉ số tương quan cấu trúc): 0.997.
Giảm năng lượng sóng mang: 75.8%.
Giảm tính nhất quán pha (Top-5 carriers): 91.4%.

Điều này chứng t rằng watermark có thể bị loại bỏ đáng kể mà mắt thường khó có thể nhận ra sự khác biệt về chất lượng hình ảnh.

License Research

Mục đích nghiên cứu và Triển khai

Dự án được viết bằng Python và cung cấp mã nguồn mở hoàn toàn. Mục tiêu chính là hỗ trợ nghiên cứu học thuật về độ bền của các kỹ thuật watermark, phân tích bảo mật đối với việc nhận diện nội dung AI, và hiểu rõ hơn về các phương pháp mã hóa phổ tần.

Tuy nhiên, tác giả cũng nhấn mạnh rằng công cụ này chỉ dành cho mục đích nghiên cứu và giáo dục. Người dùng không nên sử dụng nó để xuyên tạc nội dung do AI tạo ra thành nội dung của con người, đi ngược lại các nguyên tắc đạo đức sử dụng công nghệ.

Hiện tại, dự án vẫn đang kêu gọi cộng đồng đóng góp các ảnh mẫu đen/trắng từ các nguồn khác nhau để进一步完善 bộ SpectralCodebook, giúp nâng cao khả năng phát hiện và loại bỏ watermark trên nhiều độ phân giải khác nhau.

Đảo ngược kỹ thuật SynthID: Phát hiện và gỡ bỏ dấu mờ AI của Google bằng phân tích phổ

Tổng quan về Reverse-Engineering SynthID

Cơ chế hoạt động và Phát hiện quan trọng

V3 Bypass: Phương pháp loại bỏ "Phẫu thuật" đa độ phân giải

Hiệu suất và Kết quả thử nghiệm

Mục đích nghiên cứu và Triển khai

Bài viết liên quan