Dữ liệu bầu cử công khai có thể trở thành "mặt trận tấn công" đối với quyền riêng tư
Nghiên cứu mới chỉ ra rằng việc kết hợp dữ liệu bầu cử công khai với các bộ dữ liệu khác có thể giúp kẻ xấu định danh chính xác cá nhân, gây ra những rủi ro nghiêm trọng về an ninh. Các chuyên gia cảnh báo rằng các biện pháp che giấu thông tin hiện tại là chưa đủ để ngăn chặn việc lạm dụng dữ liệu này.

Dữ liệu bầu cử công khai có thể trở thành "mặt trận tấn công" đối với quyền riêng tư
Dữ liệu bầu cử của bạn có thể bị sử dụng chống lại chính bạn. Một cơ quan tình báo nước ngoài muốn xác định thành viên gia đình của nhân viên quân sự đang được triển khai có thể làm điều đó bằng cách đối chiếu dữ liệu hồ sơ cử tri công khai với các bài đăng trên mạng xã hội.
Một nhà tuyển dụng chỉ muốn thuê nhân viên có một đảng phái chính trị cụ thể có thể thực hiện việc này bằng cách phân tích lịch sử phiếu bầu sơ cấp của người nộp đơn. Một nhóm lừa đảo danh tính tìm cách mở tài khoản tín dụng dưới tên người khác có thể xác định những cử tri có thư đã bị trả lại (thông qua các chỉ báo treo trong hồ sơ cử tri) để chiếm đoạt những địa chỉ đó bằng các yêu cầu đổi địa chỉ giả mạo.
Các kịch bản này là hoàn toàn có thể thực hiện được nhờ khả năng liên kết dữ liệu cử trí công khai với các bộ dữ liệu khác, theo Noah M. Kenney, người sáng lập công ty tư vấn Digital 520.
Nghiên cứu về khả năng định danh lại
"Tôi đã chọn hai quận khác nhau đại diện cho hai thái cực đối lập," Kenney chia sẻ trong một cuộc phỏng vấn. "Ở Texas, họ che giấu nhiều thông tin, trong khi Bắc Carolina công bố nhiều thông tin hơn về các hồ sơ cụ thể. Những gì tôi tìm kiếm cụ thể là nếu bạn hợp nhất hoặc liên kết bộ dữ liệu này với các bộ dữ liệu khác, khả năng bạn có thể định danh lại một người là bao nhiêu?"
Hơn 25 năm trước, nghiên cứu của Latanya Sweeney, hiện là giáo sư tại Harvard, đã chứng minh rằng phần lớn dân số Hoa Kỳ (87%) có thể được xác định chỉ với ba điểm dữ liệu ẩn danh – mã ZIP năm chữ số, giới tính và ngày sinh. Kết quả này có thể được cải thiện khi kết hợp với các bộ dữ liệu khác. Các nghiên cứu gần đây cho thấy quá trình xác định danh tính con người từ các điểm dữ liệu dường như ẩn danh trở nên dễ dàng hơn nhiều với các công cụ AI.
Trong một bài báo nghiên cứu có tiêu đề "Public Voting Records: A Record, or an Attack Surface?" (Hồ sơ bầu cử công khai: Một hồ sơ, hay một bề mặt tấn công?), Kenney mô tả cách ông phân tích các hồ sơ công khai từ Quận Travis, Texas và Quận Robeson, Bắc Carolina để chứng minh rằng các kịch bản gây hại nêu trên là hoàn toàn khả thi với dữ liệu công khai.
Thực tế từ dữ liệu Texas và Bắc Carolina
Tệp dữ liệu Texas cung cấp ít điểm dữ liệu hơn tệp Bắc Carolina, nhưng nghiên cứu cho thấy việc biên tập (redaction) thông tin không tạo ra nhiều sự khác biệt trong các kịch bản định danh lại được đánh giá.
Với thông tin ít chi tiết hơn của Texas, Kenney đã có thể sử dụng một tập lệnh Python để liên kết hồ sơ cử tri với các hồ sơ công khai khác như dữ liệu đóng góp cá nhân của Ủy ban Bầu cử Liên bang (FEC).
"Chúng tôi đã trích xuất 500 hồ sơ đóng góp cho mã ZIP 78704 từ chu kỳ năm 2024 thông qua FEC OpenAPI vào ngày 1 tháng 5 năm 2026," ông giải thích trong bài báo của mình. "Sau khi khử trùng lặp xuống còn 181 người đóng góp duy nhất bằng cách khớp chính xác (họ, tên, mã ZIP) và kết nối nội bộ với tệp cử tri trên cùng một khóa, chúng tôi thấy rằng trong số 181 người đóng góp, 105 người (58,01%) khớp với bất kỳ hồ sơ cử tri nào và 95 người (52,49%) khớp với một cử tri có thể định danh duy nhất."
Kenney cho biết tỷ lệ khớp 52% này để xác định cá nhân từ danh sách cử tri và dữ liệu FEC sẽ tăng lên khoảng 90–95% nếu sử dụng các loại công cụ mà các nhà môi giới dữ liệu thương mại sử dụng.
Những rủi ro cụ thể
Bộ dữ liệu cử tri Bắc Carolina bao gồm số điện thoại cho đa số cử tri. Theo bài báo, 88,53% cử tri có số điện thoại liệt kê có số điện thoại là duy nhất trong quận. Kết quả là, các bộ dữ liệu bên ngoài chứa số điện thoại có thể được liên kết với tỷ lệ tương tự bằng cách sử dụng trường này làm khóa để thu hẹp và xác định các cá nhân có khả năng.
Ngoài ra, nghiên cứu chỉ ra rằng:
- Tên và mã ZIP định danh duy nhất 95,81% cử tri Texas và 87,79% cử tri Bắc Carolina.
- Trong số cử tri Quận Travis đã bỏ phiếu trong 20 cuộc bầu cử trở lên, 98,4% có mô hình tham gia bỏ phiếu độc đáo đối với họ, biến điểm dữ liệu này thành một "dấu vân tay".
- Việc Texas che giấu ngày sinh như một biện pháp bảo mật bị vô hiệu hóa bởi việc công bố dữ liệu đăng ký cử tri, cho phép 28% cử tri được định danh duy nhất khi kết hợp với mã ZIP và giới tính.
- Tệp cử tri Quận Travis hiện đang phơi bày 320 gia đình quân nhân đang được triển khai thông qua việc công bố mã APO/FPO cho thư từ quân sự.
Giải pháp và Kiến nghị
Hiện tại chưa có luật bảo mật dữ liệu liên bang toàn diện. Trong khi nhiều bang có các quy tắc bảo mật, sự khác biệt là rất lớn.
"Ngay cả trong một bang cụ thể, hầu hết các quận đều xử lý riêng lẻ các yêu cầu hồ sơ công khai này, vì vậy họ xử lý chúng khác nhau trên khắp cả nước," Kenney nói. "Một số nơi bạn không thể lấy được. Một số nơi bạn cần ID. Một số nơi bạn phải trải qua quy trình yêu cầu hồ sơ công khai hoặc phải trả tiền. Hai quận tôi sử dụng đều có sẵn miễn phí. Bạn có thể đi và tải xuống các tệp zip của chúng mà không cần cung cấp địa chỉ email hay tên của mình từ bất kỳ đâu trên thế giới."
Kenney tin rằng các biện pháp kiểm soát truy cập là câu trả lời tốt hơn là việc biên tập các trường dữ liệu nhất định, đồng thời chỉ ra các phát hiện của mình cho thấy việc biên tập không nhất thiết bảo vệ chống lại các thiệt hại về quyền riêng tư. Ông khuyến nghị các biện pháp như giới hạn tốc độ đối với các yêu cầu tệp hàng loạt, xác minh danh tính, yêu cầu ID bang, duy trì nhật ký kiểm tra các yêu cầu và cấm bán lại thương mại các hồ sơ này.
Ngoài các bản sửa lỗi cụ thể dựa trên phát hiện của mình – Texas nên tổng quát hóa ngày đăng ký cử tri thành năm thay vì ngày và mã bưu chính quân đội nên được loại khỏi danh sách cử tri – Kenney lập luận rằng mọi người nên được phép chọn không tham gia đưa vào các bộ dữ liệu công khai và các biện pháp bảo vệ dữ liệu chung sẽ rất hữu ích.
Bài viết liên quan

Công nghệ
Xu hướng "Subliminals": Liệu âm thanh kỹ thuật số có thể giúp bạn trở nên xinh đẹp hơn?
04 tháng 5, 2026

Công nghệ
Hành trang công nghệ và thiết bị tối ưu cho chuyến chạy 80 dặm qua dãy núi Ý
04 tháng 5, 2026

Công nghệ
Ouster ra mắt cảm biến Lidar màu Rev8: Khi một cảm biến có thể thay thế cả camera
04 tháng 5, 2026
