Phân tích dữ liệu: Quốc gia nào có phiếu bầu chính xác nhất tại Eurovision?

Bài viết này sử dụng phân tích dữ liệu và thống kê để xác định quốc gia có khả năng dự đoán và xếp hạng kết quả Eurovision chính xác nhất, thông qua việc xây dựng các thước đo đánh giá phiếu bầu.

Eurovision vừa khép lại. Mặc dù tôi chưa bao giờ thực sự mặn mà với mặt trận âm nhạc, nhưng những động lực chính trị kỳ lạ trong cách bỏ phiếu tại Eurovision luôn khiến tôi thích thú. Mỗi năm, tôi đều xem chương trình chỉ để theo dõi điều này và những lời bình luận đầy hóm hỉnh của Graham Norton, người bình luận từ Anh Quốc.

Khi đang theo dõi các phiếu bầu từ hội đồng giám khảo được công bố, một câu hỏi hiện lên trong đầu tôi: Quốc gia nào đã bỏ phiếu tốt nhất tại Eurovision? Nói cách khác, quốc gia nào có khả năng chọn ra top 10 cuối cùng chính xác nhất và theo đúng thứ tự?

Ngạc nhiên thay, mặc dù đã có rất nhiều công trình nghiên cứu về các khối bỏ phiếu và thiên kiến hai bên tại Eurovision, hầu hết chúng chỉ tập trung vào việc "ai bầu cho ai". Tôi muốn đặt câu hỏi theo hướng khác: "ai bầu chính xác nhất". Tôi không tìm thấy ai đặt câu hỏi theo cách này, vì vậy tôi quyết định tự thực hiện phân tích dữ liệu.

Xây dựng thước đo

Để trả lời câu hỏi này, trước hết tôi cần hình thức hóa thế nào là "tốt". Tức là cần một khái niệm toán học về "tốt" và "xấu".

Thước đo đơn giản nhất tôi có thể nghĩ ra là: "trong số 10 quốc gia bạn đã cho điểm, có bao nhiêu quốc gia thực sự lọt vào top 10?". Vấn đề là cách này không thể phân biệt được người bỏ phiếu cho người chiến thắng cuối cùng 12 điểm với người chỉ cho họ 1 điểm. Điều này có vẻ không đúng: một sự phân bổ điểm số là một thứ hạng, không chỉ là một tập hợp, vì vậy vị trí phải được quan tâm.

Để cân nhắc vị trí, tôi cần một phương án xác định mức độ quan trọng của vị trí thứ 1 so với vị trí thứ 10. Hóa ra chính Eurovision đã trả lời câu hỏi này: hệ thống điểm 12, 10, 8, 7, 6, 5, 4, 3, 2, 1 mà họ trao chính là một phương án như vậy. Vì vậy, tôi chỉ cần tái sử dụng nó.

Tôi đã thử cách tiếp cận đơn giản tiếp theo: đối với mỗi quốc gia, tôi có hai con số: điểm số mà người bỏ phiếu trao cho họ và số điểm họ thực nhận được cuối cùng. Nhân hai con số này lại, cộng tổng qua tất cả các quốc gia, sau đó chia cho giá trị tối đa mà tổng này có thể đạt được nếu người bỏ phiếu xếp hạng mọi thứ hoàn hảo (trao 12 điểm cho người thắng cuộc thực tế, 10 điểm cho người về nhì, v.v.). Kết quả sẽ nằm trong khoảng từ 0 đến 1, trong đó 1 là một phiếu bầu hoàn hảo.

Ví dụ minh họa

Top 5 thực tế của hội đồng giám khảo năm 2023, theo điểm nhận được, là: Thụy Điển (340), Israel (177), Ý (176), Phần Lan (150), Estonia (146). Hãy tưởng tượng một hội đồng giám khảo đã trao điểm như sau: (12 → Ý, 10 → Thụy Điển, 8 → Estonia, 7 → Israel, 6 → Phần Lan).

Điểm số của người bỏ phiếu này sẽ được tính như sau:

12 (Ý) × 176 = 2.112
10 (Thụy Điển) × 340 = 3.400
8 (Estonia) × 146 = 1.168
7 (Israel) × 177 = 1.239
6 (Phần Lan) × 150 = 900
Tổng: 8.819

Và đây là điểm số hoàn hảo mà người này có thể đạt được nếu họ trao 12 điểm cho người đứng nhất, 10 điểm cho người đứng nhì, v.v.:

12 (Thụy Điển) × 340 = 4.080
10 (Israel) × 177 = 1.770
8 (Ý) × 176 = 1.408
7 (Phần Lan) × 150 = 1.050
6 (Estonia) × 146 = 876
Tổng: 9.184

Vậy điểm số của người bỏ phiếu này là 8.819 / 9.184 = 0,96. Gần như hoàn hảo: cùng 5 quốc gia đó có mặt, chỉ hơi sai thứ tự.

Đánh giá thước đo

Rõ ràng đây không phải là thước đo duy nhất tôi có thể sử dụng. Có nhiều phương án khác như: khoảng cách bình phương tối thiểu (least-squares distance) so với phiếu bầu hoàn hảo, NDCG@10 (một thước đo xếp hạng tiêu chuẩn trong tìm kiếm), và hệ số tương quan Pearson.

Tôi chọn phương pháp trên vì tôi muốn cách đơn giản nhất nhưng vẫn hiệu quả. Bình phương tối thiểu là phương án "đơn giản" hơn duy nhất tôi có thể nghĩ ra, nhưng điểm số của nó bị dồn vào một phạm vi hẹp. Người bỏ phiếu tốt nhất trong chín cuộc thi chỉ đạt khoảng 0,42 trên mức tối đa lý thuyết là 1,0. Đây là điểm số cao nhất trong dữ liệu nhưng không đọc có vẻ như một con số tốt. Thước đo tôi sử dụng nằm tự nhiên hơn trên thang điểm 0-1: những người bỏ phiếu tốt nhất ở mức 0,8, tệ nhất ở mức 0,6, và 1,0 vẫn có nghĩa là phiếu bầu hoàn hảo.

Dù sao, tôi cũng đã chạy tất cả các thước đo được liệt kê ở trên và chúng phần nào đồng thuận với nhau, với cùng một nhóm quốc gia tụ tập ở đầu và cuối bảng bất kể thước đo nào được sử dụng. Tuy nhiên, vị trí số 1 vẫn thay đổi giữa ba hoặc bốn quốc gia đứng đầu tùy thuộc vào thước đo tôi chọn.

Kết quả phân tích

Tôi chọn năm 2016 làm mốc bắt đầu vì đó là lúc Eurovision tách đóng góp của mỗi quốc gia thành hai phiếu bầu riêng biệt: hội đồng giám khảo và phiếu bầu của khán giả (televote), mỗi loại trao riêng các điểm 12, 10, 8... Các cuộc thi cũ sử dụng một phiếu bầu kết hợp, nên dữ liệu không phân tách theo cùng cách này.

Trong chín cuộc thi này, dưới đây là bảng xếp hạng đầy đủ:

Tây Ban Nha: 0,815
Litva: 0,810
Bỉ: 0,804
Đức: 0,798
Hà Lan: 0,797
Malta: 0,792
Thụy Điển: 0,790
Áo: 0,789
Iceland: 0,788
Na Uy: 0,783

...

Tây Ban Nha dẫn đầu, nhưng chỉ vượt qua rất ít. Bảy quốc gia đứng đầu đều nằm trong khoảng 0,025 của nhau, hẹp hơn sự biến động theo năm của bất kỳ quốc gia nào, vì vậy việc gọi Tây Ban Nha là "người bỏ phiếu tốt nhất" là một khẳng định quá mạnh.

Một số quốc gia thường được thảo luận trong các phân tích về "bầu khối" thực sự xuất hiện ở gần cuối bảng; một số khu vực ở Balkan (Croatia, Bắc Macedonia, Bulgaria, Montenegro) và Hy Lạp. Nhưng điều này chỉ mang tính gợi ý: những quốc gia khác từ cùng các khối này (Cyprus, Albania, Serbia, Armenia) lại nằm ở giữa bảng khá thoải mái. Vì vậy, thước đo này không thực sự đo lường việc bầu khối; nó đo lường độ chính xác, một khái niệm khác. Để tách bạch hai yếu tố này một cách chính xác sẽ cần thêm nhiều công việc phân tích mà tôi không thực sự muốn làm!

Lưu ý về dữ liệu

Tất cả dữ liệu bỏ phiếu đều lấy từ EurovisionAPI/dataset, một bản sao được thu thập dữ liệu (scraped) từ kết quả được công bố bởi EBU. Để kiểm tra độ tin cậy cho hai cuộc thi gần nhất, tôi đã phân tích các bảng bỏ phiếu trên Wikipedia cho năm 2024 và 2025 và so sánh từng ô với tập dữ liệu và không tìm thấy sự khác biệt nào.

Tất cả mã nguồn của tôi đều có sẵn trên GitHub.