Dữ liệu bầu cử công khai có thể bị lợi dụng để lộ thông tin cá nhân

AI & ML04 tháng 5, 2026·7 phút đọc

Nghiên cứu mới cho thấy ngay cả dữ liệu bầu cử hạn chế cũng có thể được liên kết để nhận diện danh tính cá nhân khi kết hợp với các nguồn dữ liệu khác. Các chuyên gia cảnh báo về rủi ro bảo mật và quyền riêng tư đối với các gia đình quân sự và người dùng mạng xã hội.

Dữ liệu bầu cử công khai có thể bị lợi dụng để lộ thông tin cá nhân

Dữ liệu bầu cử công khai có thể bị lợi dụng để lộ thông tin cá nhân

Dữ liệu cử tri của bạn có thể bị sử dụng để chống lại chính bạn. Một cơ quan tình báo nước ngoài muốn xác định thành viên gia đình của nhân viên quân sự đang triển khai có thể làm điều đó bằng cách đối chiếu dữ liệu hồ sơ cử tri công khai với các bài đăng trên mạng xã hội.

Một nhà tuyển dụng chỉ muốn thuê nhân viên có thiên kiến chính trị cụ thể có thể thực hiện việc đó bằng cách phân tích lịch sử phiếu bầu sơ cấp của người xin việc. Một nhóm lừa đảo danh tính tìm cách mở tài khoản tín dụng dưới tên người khác có thể xác định những cử tri có thư bị trả lại (thông qua các chỉ báo treo hồ sơ cử tri) để chiếm đoạt những địa chỉ đó bằng các yêu cầu đổi địa chỉ giả mạo.

Các kịch bản này là hoàn toàn khả thi nhờ khả năng liên kết dữ liệu cử tri công khai với các tập dữ liệu khác, theo Noah M. Kenney, người sáng lập công ty tư vấn Digital 520.

"Tôi đã chọn hai quận khác nhau đại diện cho hai thái cực đối lập," Kenney chia sẻ trong một cuộc phỏng vấn. "Ở Texas, họ che giấu nhiều thông tin, trong khi North Carolina công bố nhiều dữ liệu hơn về các hồ sơ cụ thể. Điều tôi muốn tìm hiểu là nếu bạn hợp nhất hoặc liên kết tập dữ liệu này với các tập dữ liệu khác, khả năng nhận diện lại một người là bao nhiêu?"

Hơn 25 năm trước, nghiên cứu của Latanya Sweeney, hiện là giáo sư tại Harvard, đã chứng minh rằng phần lớn dân số Mỹ (87%) có thể được xác định chỉ với ba dữ liệu ẩn danh – mã ZIP 5 chữ số, giới tính và ngày sinh.

Kết quả này có thể được cải thiện khi kết hợp với các tập dữ liệu khác. Các nghiên cứu gần đây cũng cho thấy quá trình xác định danh tính con người từ các dữ liệu có vẻ ẩn danh trở nên dễ dàng hơn nhiều với sự hỗ trợ của các công cụ AI.

Trong bài nghiên cứu có tên "Hồ sơ Bầu cử Công khai: Một Bản Ghi, hay Một Bề Mặt Tấn Công?", Kenney mô tả cách ông phân tích hồ sơ công khai từ Quận Travis, Texas và Quận Robeson, North Carolina để chứng minh rằng các kịch bản đối thủ nêu trên là hoàn toàn khả thi với dữ liệu công khai.

Tệp dữ liệu của Texas cung cấp ít điểm dữ liệu hơn so với tệp của North Carolina, nhưng nghiên cứu cho thấy việc che giấu thông tin (redaction) không tạo ra nhiều sự khác biệt trong các kịch bản nhận diện lại được đánh giá.

Với thông tin ít chi tiết hơn của Texas, Kenney đã có thể sử dụng một script Python để liên kết hồ sơ cử tri với các hồ sơ công khai khác như dữ liệu đóng góp cá nhân của Ủy ban Bầu cử Liên bang (FEC).

"Chúng tôi đã trích xuất 500 hồ sơ đóng góp cho mã ZIP 78704 từ chu kỳ năm 2024 thông qua FEC OpenAPI vào ngày 1 tháng 5 năm 2026," ông giải thích trong bài báo của mình. "Chúng tôi khử trùng lặp xuống còn 181 người đóng góp duy nhất bằng cách khớp chính xác (họ, tên, mã ZIP), và kết nối nội bộ với hồ sơ cử tri trên cùng một khóa. Trong số 181 người đóng góp, 105 người (58,01%) khớp với bất kỳ hồ sơ cử tri nào và 95 người (52,49%) khớp với một cử tri có thể xác định duy nhất."

Kenney cho biết tỷ lệ khớp 52% này để xác định cá nhân từ danh sách cử tri và dữ liệu của FEC sẽ tăng lên khoảng 90–95% nếu sử dụng các loại công cụ mà các môi giới dữ liệu thương mại sử dụng.

Tập dữ liệu cử tri của North Carolina bao gồm số điện thoại cho đa số cử tri. Theo bài báo, 88,53% cử tri có liệt kê số điện thoại sở hữu một số điện thoại duy nhất trong quận. Kết quả là, các tập dữ liệu bên ngoài chứa số điện thoại có thể được liên kết với tỷ lệ tương tự bằng cách sử dụng trường này làm khóa để thu hẹp và xác định các cá nhân có khả năng.

Trong số các phát hiện khác của báo cáo:

  • Tên và mã ZIP xác định duy nhất 95,81% cử tri Texas và 87,79% cử tri North Carolina.
  • Trong số cử tri tại Quận Travis đã đi bầu 20 lần trở lên, 98,4% có mô hình tham gia bỏ phiếu độc nhất đối với họ, biến dữ liệu này thành một "dấu vân tay".
  • Việc Texas che giấu ngày sinh như một biện pháp bảo mật bị vô hiệu hóa bởi việc công bố dữ liệu đăng ký cử tri, cho phép xác định duy nhất 28% cử tri khi kết hợp với mã ZIP và giới tính.
  • Hồ sơ cử tri của Quận Travis hiện đang lộ danh tính của 320 gia đình quân sự đang triển khai thông qua việc công bố mã APO/FPO cho thư từ quân sự.

Hiện tại, chưa có một luật bảo mật liên bang toàn diện. Trong khi nhiều tiểu bang có các quy tắc bảo mật, sự khác biệt là rất lớn.

"Ngay cả trong một tiểu bang cụ thể, hầu hết các quận đều xử lý riêng lẻ các yêu cầu hồ sơ công khai này, vì vậy họ xử lý chúng khác nhau trên khắp cả nước," Kenney nói. "Một số nơi bạn không thể lấy được. Một số nơi bạn cần ID. Một số nơi bạn phải trải qua quy trình yêu cầu hồ sơ công khai hoặc phải trả tiền. Hai quận tôi sử dụng đều có sẵn miễn phí. Bạn có thể đi và tải xuống các tệp zip của chúng mà không cần cung cấp địa chỉ email hay tên của mình từ bất kỳ đâu trên thế giới."

Kenney cho rằng ông tin rằng các biện pháp kiểm soát truy cập đại diện cho một giải pháp tốt hơn là việc che giấu các trường dữ liệu nhất định, đồng thời chỉ ra các phát hiện của mình cho thấy việc che giấu không nhất thiết bảo vệ chống lại các thiệt hại về quyền riêng tư. Ông khuyến nghị các biện pháp như giới hạn tốc độ trên các yêu cầu tệp hàng loạt, xác minh danh tính, yêu cầu ID tiểu bang, duy trì nhật ký kiểm tra của các yêu cầu và cấm bán lại thương mại các hồ sơ này – vì chúng thường được các môi giới dữ liệu sử dụng.

Ngoài các bản sửa lỗi cụ thể dựa trên phát hiện của mình – Texas nên tổng quát hóa ngày đăng ký cử tri theo năm thay vì theo ngày và mã bưu điện của lực lượng vũ trang nên được loại khỏi danh sách cử tri – Kenney lập luận rằng mọi người nên được phép chọn không tham gia vào các tập dữ liệu công khai và các biện pháp bảo vệ quyền riêng tư dữ liệu chung sẽ rất hữu ích.

Tuần trước, đảng Cộng hòa Hạ viện đã giới thiệu Đạo luật Dữ liệu An toàn (Secure Data Act) trong một nỗ lực nhằm tạo ra các quy tắc quyền riêng tư liên bang. Nhưng Kenney nói rằng nó yếu hơn đáng kể so với nhiều quy định cấp tiểu bang và ông không mong đợi nó sẽ được thông qua.

"Đồng thuận trong ngành là khả năng được thông qua là cực kỳ thấp, ít nhất là ở dạng hiện tại," ông nói. "Đây đại diện cho lần thử thứ ba để thông qua quyền riêng tư dữ liệu toàn diện trong những năm gần đây, lần gần nhất là Đạo luật Bảo mật và Bảo vệ Dữ liệu Mỹ, đã không được thông qua."

Chia sẻ:FacebookX
Nội dung tổng hợp bằng AI, mang tính tham khảo. Xem bài gốc ↗