Nhà phát triển tuyên bố đã bẻ khóa hệ thống watermark SynthID của Google DeepMind

Một nhà phát triển phần mềm tuyên bố đã đảo ngược kỹ thuật hệ thống SynthID của Google DeepMind, cho phép loại bỏ hoặc chèn thủ công watermark vào hình ảnh do AI tạo ra. Tuy nhiên, Google phủ nhận nhận định này và khẳng định công cụ của họ vẫn hoạt động hiệu quả. Dù vậy, sự kiện này đã đặt ra nhiều câu hỏi về độ bền vững của các giải pháp chống giả mạo nội dung AI hiện nay.

Một nhà phát triển phần mềm với nickname Aloshdenny đã gây xôn xao cộng đồng công nghệ khi tuyên bố đã thành công trong việc đảo ngược kỹ thuật (reverse-engineer) hệ thống SynthID của Google DeepMind. Theo đó, người này cho biết mình có thể loại bỏ dấu chìm (watermark) khỏi các hình ảnh do AI tạo ra hoặc thậm chí chèn thủ công chúng vào các tác phẩm khác.

Hình ảnh minh họa về công nghệ watermark và Deepfake

Tuy nhiên, đại diện của Google đã nhanh chóng lên tiếng phủ nhận nhận định này. Phát ngôn viên Myriam Khan khẳng định: "Việc nói rằng công cụ này có thể loại bỏ có hệ thống các watermark SynthID là không chính xác. SynthID là một công cụ đánh dấu chìm mạnh mẽ và hiệu quả cho nội dung do AI tạo ra."

SynthID là gì và nó hoạt động ra sao?

SynthID là hệ thống đánh dấu chìm gần như vô hình, được Google tích hợp sâu vào các công cụ tạo nội dung AI của mình. Công nghệ này nhúng thông tin nhận dạng trực tiếp vào các điểm ảnh (pixel) của hình ảnh ngay tại thời điểm tạo ra. Mục tiêu thiết kế của SynthID là làm cho việc loại bỏ dấu hiệu này trở nên khó khăn mà không làm giảm chất lượng hình ảnh, từ đó giúp xác định nguồn gốc nội dung trong bối cảnh deepfake ngày càng phổ biến. Hiện tại, công nghệ này được áp dụng rộng rãi trên các sản phẩm AI của Google, bao gồm cả các mô hình như Nano Banana và Veo 3.

So sánh hình ảnh có SynthID (bên trái) và sau khi xử lý (bên phải)

Quy trình "bẻ khóa" phức tạp

Aloshdenny đã chia sẻ mã nguồn và quy trình chi tiết của mình trên GitHub và Medium. Theo đó, anh ta sử dụng 200 hình ảnh màu đen hoàn toàn được tạo ra bởi Gemini, sau đó áp dụng các kỹ thuật xử lý tín hiệu phức tạp để làm lộ các mẫu watermark ẩn.

"Không cần mạng nơ-ron, không cần quyền truy cập độc quyền," Aloshdenny viết trên Medium. "Hóa ra là nếu bạn trung bình hóa đủ các hình ảnh AI màu đen 'tuyệt đối', mọi điểm ảnh khác không thực sự chỉ là watermark đang nhìn chằm chằm vào bạn."

Quy trình cụ thể bao gồm việc tạo ra các hình ảnh đen hoặc trắng, tăng độ tương phản và bão hòa, sau đó khử nhiễu để lộ ra các mẫu watermark. Tiếp theo, các mẫu này được trung bình hóa để tìm ra độ lớn và pha của tín hiệu watermark tại từng tần số. Cuối cùng, nhà phát triển sẽ săn lùng các dấu hiệu của tần số này trong hình ảnh và loại bỏ chúng một phần tại cùng một góc độ mà chúng được chèn vào.

Mẫu watermark SynthID hiện rõ dưới dạng phổ màu trên nền đen

Thực tế: Làm nhầm bộ giải mã chứ không xóa bỏ hoàn toàn

Mặc dù tuyên bố gây sốc, nhưng thực tế Aloshdenny thừa nhận mình chưa thể loại bỏ hoàn toàn SynthID. Thay vào đó, phương pháp của anh ta chỉ làm "nhầm lẫn" bộ giải mã (decoder) của SynthID đến mức nó từ bỏ việc đọc watermark.

"Thực tế tốt nhất mà tôi có thể làm là làm nhầm bộ giải mã đủ để nó bỏ cuộc — chứ không thực sự xóa bỏ nó — điều đó nói lên nhiều về thiết kế tốt đẹp của nó," nhà phát triển này nhận định. "Nó không hoàn hảo. Nhưng nó không cố gắng để không thể phá vỡ. Nó cố gắng nâng cao chi phí lạm dụng đủ cao để phần lớn mọi người không bận tâm."

Điều này cho thấy SynthID không hoàn toàn bất khả xâm phạm, nhưng nó được thiết kế như một rào cản kỹ thuật đáng gờm. Đối với người dùng thông thường và các kẻ phát tán rác rưởi (script-kiddies), việc vượt qua rào cản này để loại bỏ hoặc thêm watermark nhằm lừa các hệ thống phát hiện AI vẫn là một thách thức lớn.

Nhà phát triển tuyên bố đã bẻ khóa hệ thống watermark SynthID của Google DeepMind

SynthID là gì và nó hoạt động ra sao?

Quy trình "bẻ khóa" phức tạp

Thực tế: Làm nhầm bộ giải mã chứ không xóa bỏ hoàn toàn

Bài viết liên quan