Lộ lọt 4TB mẫu giọng nói: Khi giọng của bạn trở thành vũ khí của hacker

Một lượng dữ liệu khổng lồ gồm giọng nói và giấy tờ định danh của 40.000 nhà thầu AI tại Mercor vừa bị lộ. Đây là nguyên liệu hoàn hảo để tội phạm mạng tạo ra các bản sao deepfake nhằm qua mặt các hệ thống bảo vệ sinh trắc học.

Ngày 4 tháng 4 năm 2026, nhóm tống tiền Lapsus$ đã đăng tải dữ liệu của nền tảng Mercor lên trang web rò rỉ của họ. Vụ việc này được đánh giá là một trong những sự cố bảo mật nghiêm trọng nhất liên quan đến dữ liệu sinh trắc học, với khoảng 4 terabyte dữ liệu bị lấy cắp.

Dữ liệu này không chỉ là những bản ghi âm thông thường. Theo phân tích của các chuyên gia điều tra, nó chứa gói dữ liệu mà giới phân tích bảo mật đã cảnh báo từ hai năm qua: sinh trắc học giọng nói (voice biometrics) được ghép đôi với giấy tờ tùy thân chính chủ như hộ chiếu hoặc bằng lái xe.

Thủ phạm đã nhắm vào hơn 40.000 nhà thầu đã đăng ký để gán nhãn dữ liệu, ghi âm các đoạn văn bản và thực hiện các cuộc gọi xác minh cho mục đích huấn luyện AI. Chỉ trong vòng mười ngày sau khi sự cố bị công bố, năm vụ kiện tập thể đã được đệ trình. Nguyên đơn cho rằng Mercor đã thu thập dấu vân tay giọng nói dưới danh nghĩa "dữ liệu đào tạo" mà không làm rõ rằng đó cũng là một định danh sinh trắc học vĩnh viễn.

Tại sao vụ việc này lại nguy hiểm?

Hầu hết các vụ rò rỉ giọng nói trong thập kỷ qua thường rơi vào một trong hai kịch bản: hoặc là các trung tâm cuộc gọi bị tấn công nhưng không có cách nào ánh xả ghi âm lại với danh tính, hoặc là giấy tờ tùy thân bị lộ nhưng không có âm thanh đi kèm.

Mercor đã hợp nhất cả hai cột dữ liệu này. Quy trình tuyển dụng nhà thầu của họ yêu cầu quét hộ chiếu hoặc bằng lái xe, sau đó là ảnh selfie qua webcam, và cuối cùng là một buổi ghi âm giọng nói trong phòng yên tĩnh với các câu kịch bản có sẵn. Chuỗi trình tự này, nằm trên một hàng cơ sở dữ liệu, chính xác là những gì mà một dịch vụ sao chép giọng nói tổng hợp (synthetic voice cloning) cần làm đầu vào.

The Wall Street Journal đưa tin vào tháng 2 năm 2026 rằng sao chép giọng nói chất lượng cao hiện chỉ cần khoảng 15 giây âm thanh tham khảo sạch. Các bản ghi âm của Mercor được báo cáo là trung bình từ 2 đến 5 phút lời nói chất lượng phòng thu cho mỗi nhà thầu. Đây là mức vượt xa ngưỡng yêu cầu. Khi kết hợp với giấy tờ tùy thân đã xác minh, kẻ tấn công sở hữu cả bản sao giọng nói và giấy tờ chứng minh nhân thân để đưa bản sao đó vào hoạt động.

Kẻ tấn công có thể làm gì với dữ liệu giọng nói bị đánh cắp?

Các mô hình đe dọa dưới đây không phải là suy đoán. Mỗi kỹ thuật đều là phương thức đã được ghi nhận sử dụng trong thực tế trước vụ việc này.

Vượt qua xác minh ngân hàng: Một số ngân hàng tại Mỹ và Anh vẫn coi khớp dấu vân tay giọng nói là một trong hai yếu tố xác thực. Bản sao của chủ tài khoản đọc cụm từ thách thức sẽ vượt qua cổng âm thanh, chỉ còn lại câu hỏi kiến thức thường có thể tìm thấy trong chính bộ dữ liệu bị lộ.
Lừa đạo qua điện thoại (Vishing) cho nhà tuyển dụng: Gọi cho bộ phận nhân sự hoặc tài chính giả danh là nhân viên để yêu cầu chuyển lương, yêu cầu chuyển tiền hoặc mở khóa trạm làm việc. Krebs on Security đã liệt kê hơn hai chục trường hợp được xác nhận kể từ năm 2023.
Cuộc gọi video Deepfake theo kiểu Arup tại Hồng Kông: Năm 2024, một nhân viên tài chính tại Arup đã chuyển khoảng 25 triệu USD sau một cuộc gọi video deepfake với nhiều người. Giọng nói và khuôn mặt được xây dựng từ hình ảnh công khai. Mercor đã lộ ra thứ tốt hơn hình ảnh công khai: âm thanh phòng thu kèm giấy tờ xác minh.
Lừa đảo bảo hiểm: Pindrop báo cáo mức tăng 475% so với cùng kỳ năm trước trong các cuộc tấn công bằng giọng nói tổng hợp chống lại các trung tâm cuộc gọi bảo hiểm trong năm 2025. Các khiếu nại về xe hơi, nhân thọ và khuyết tật là mục tiêu chính vì chúng được giải quyết qua điện thoại.
Lừa đảo tình cảm hoặc giả danh người thân: Trung tâm khiếu nại tội phạm mạng của FBI (FBI IC3) ghi nhận 2,3 tỷ USD thiệt hại cho nạn nhân từ 60 tuổi trở lên trong năm 2026. Danh mục tăng trưởng nhanh nhất là các cuộc gọi giả danh khẩn cấp, nơi giọng nói tổng hợp tuyên bố là người thân gặp rắc rối.

Cách kiểm tra xem giọng nói của bạn có đang bị lạm dụng

Nếu bạn từng tải lên mẫu giọng nói cho Mercor hoặc bất kỳ nhà môi giới đào tạo AI nào hoạt động đến năm 2025, hãy đối xử với giọng nói của bạn như một mật khẩu đã bị lộ. Bạn không thể thay đổi nó, nhưng bạn có thể thay đổi những gì nó mở khóa. Dưới đây là danh sách ngắn các biện pháp bảo vệ:

Tự kiểm tra dấu chân âm thanh công khai: Tìm kiếm trên YouTube, danh sách podcast và các bản ghi Zoom cũ để tìm các mẫu giọng của bạn có thể được lập chỉ mục công khai. Gỡ bỏ những gì bạn có thể. Ít tham chiếu âm thanh công khai có nghĩa là bản sao của kẻ tấn công kém mạnh mẽ hơn.
Thiết lập mã khẩu lời nói (verbal codeword) với người thân và liên hệ tài chính: Chọn một cụm từ chưa bao giờ được nói trong bản ghi âm và chưa bao giờ được gõ trong trò chuyện. Hướng dẫn cho những người xử lý tiền thay mặt bạn. Nếu một cuộc gọi yêu cầu chuyển tiền, mã khẩu là bắt buộc.
Xóa vân tay giọng nói nơi vẫn đang được sử dụng: Google Voice Match, Amazon Alexa Voice ID, Apple personal voice và bất kỳ đăng ký vân tay giọng nói ngân hàng nào đều có thể bị xóa và thay thế. Hãy làm điều đó ngay bây giờ, lý tưởng nhất là từ một bản ghi mới trong một môi trường âm học khác với mẫu bị lộ.
Yêu cầu ngân hàng tắt vân tay giọng làm yếu tố xác thực: Yêu cầu bằng văn bản xác thực đa yếu tố kết hợp mã ứng dụng hoặc khóa phần cứng với yếu tố kiến thức. Nhiều ngân hàng cho phép bạn chọn không dùng giọng làm yếu tố chính, nhưng ít nơi quảng cáo điều này.
Chạy các bản ghi âm nghi ngờ qua bộ quét pháp y: Nếu bạn nhận được tệp âm thanh hoặc thư thoại được cho là từ người bạn biết và yêu cầu tiền, truy cập hoặc khẩn cấp, hãy chạy nó qua trình phát hiện deepfake trước khi hành động.

Danh sách kiểm tra pháp y mà các chuyên gia sử dụng

Khi một mẫu âm thanh được đưa đến bàn của nhà phân tích pháp y, các hiện vật sau đây là những điều được kiểm tra đầu tiên. Mỗi thứ là cái mà giọng nói tổng hợp thường có hơi sai, ngay cả khi chất lượng nhận thức cao:

Mã hóa không khớp (Codec mismatch): Âm thanh được cho là từ cuộc gọi điện thoại nhưng đặc điểm quang phổ không khớp với bất kỳ mã hóa điện thoại nào được biết đến.
Mô hình hơi thở: Người nói thực tế hít vào tại các điểm dự đoán được quy định bởi độ dài cụm từ và dung tích phổi. Giọng nói tổng hợp thường bỏ qua hơi thở hoặc chèn chúng ở ranh giới âm sai.
Độ rung vi mô (Micro-jitter): Dây thanh quản tự nhiên rung với những bất thường nhỏ. Âm thanh được tạo ra thường quá sạch ở mức mili-giây.
Quỹ đạo cộng hưởng (Formant trajectory): Sự chuyển tiếp nguyên âm tuân theo các đường dẫn bộ phát âm vật lý trong miệng thực. Giọng nói sao chép đôi khi lấy các lối tắt không thể giữa các cộng hưởng.
Sự không nhất quán của âm học phòng: Chữ ký vang âm phải giống nhau từ đầu đến cuối tệp. Âm thanh được tạo ra thường khô (không vang) trong khi ngữ cảnh ghép lại có vang.
Sự phẳng của ngữ điệu (Prosody flatness): Giọng nói tổng hợp thường có phương sai cao độ và năng lượng hẹp hơn so với cùng một người nói trong điều kiện thực tế.
Độ ổn định tốc độ nói: Con người thực sự tăng tốc và chậm lại tùy theo nội dung. Giọng nói tổng hợp có xu hướng giữ tốc độ đều đặn như máy đo nhịp trong các đoạn văn dài.

ORAVYS hiện cung cấp dịch vụ kiểm tra pháp y miễn phí cho ba mẫu đầu tiên được nộp bởi nạn nhân của vụ vi phạm Mercor để giúp người dùng xác định liệu giọng nói của họ có đang bị sử dụng trái phép hay không.