Biến động mà không phân mảnh: Cách một lỗi nhãn đảng đảo ngược kết luận phân tích
Một nghiên cứu điển hình về chất lượng dữ liệu từ các cuộc bầu cử địa phương tại Anh, làm rõ tầm quan trọng của việc chuẩn hóa danh mục và xác thực các chỉ số đo lường. Bài viết chỉ ra cách một lỗi nhỏ trong xử lý nhãn đảng phái đã thay đổi hoàn toàn câu chuyện về sự biến động và phân mảnh chính trị.

Giữa năm 2018 và 2022, các hội đồng đô thị tại Anh đã trở nên biến động mạnh gần gấp đôi. Chỉ số biến động trung vị đã tăng từ 12,0 lên 22,5.
Tuy nhiên, hệ thống đảng phái lại không bị phân mảnh.
Sự khác biệt quan trọng này chỉ trở nên rõ ràng sau khi sửa một lỗi dữ liệu danh mục (categorical data bug). Trong bối cảnh này, biến động đo lường mức độ phiếu bầu chuyển dịch giữa các nhóm đảng, trong khi phân mảnh đo lường số lượng đảng cạnh tranh hiệu quả. Một hội đồng có thể biến động mạnh mà không bị phân mảnh thêm nếu một đảng lớn sụp đổ và một đảng khác hấp thụ phần lớn sự mất mát đó.
Biểu đồ biến động theo khu vực
Phiên bản đầu tiên của phân tích này cho thấy một bức tranh hoàn toàn khác. Nó gợi ý rằng sự phân mảnh đã tăng lên ở 66 trong số 67 hội đồng và biến động trung vị đã tăng gấp ba. Kết luận đó là sai. Lỗi xuất phát từ việc coi các nhãn trên phiếu bầu như "Đảng Lao động" (Labour Party) và "Đảng Lao động và Hợp tác xã" (Labour and Co-operative Party) là các đảng phân tích riêng biệt. Khi các nhóm đảng được chuẩn hóa trước khi tính toán các chỉ số, tiêu đề chính đã thay đổi hoàn toàn.
Danh mục là một phần của mô hình
Trước khi đi sâu vào các phát hiện, cần giải thích những gì đã sai, bởi vì đây là bài học có thể áp dụng rộng rãi nhất ngoài lĩnh vực bầu cử.
Các nhãn đảng không phải là các chuỗi ký tự trung tính. Chúng mã hóa một thực thể thể chế lộn xộn: các liên minh, văn bản trên phiếu bầu, thương hiệu đảng địa phương, tái định thương hiệu quốc gia và mã nguồn không nhất quán. Nếu các nhãn này được nhóm sai, mọi chỉ số hạ nguồn có thể trông rất chính xác nhưng vẫn sai.
Điều chính xác đã xảy ra như vậy. Sự phân mảnh được tính toán trước khi chuẩn hóa các nhóm đảng. Tại các khu vực nơi cả "Đảng Lao động" và "Đảng Lao động và Hợp tác xã" đều xuất hiện, mẫu số Laakso-Taagepera đã coi chúng là các đảng riêng biệt. Điều này làm thổi phồng số lượng đảng hiệu quả một cách nhân tạo. Cùng một rủi ro cũng áp dụng cho các nhãn UKIP, Reform UK và Brexit Party.
Giải pháp về mặt khái niệm rất đơn giản: tính toán các nhóm đảng phân tích trước khi tổng hợp các chỉ số.
Đường ống dữ liệu (pipeline) hiện nay tách biệt ba danh tính:
- Nhóm đảng chỉ số: được sử dụng cho tính toán phân mảnh, biến động và dao động.
- Nhóm đảng thách thức: được sử dụng để xác định kẻ thách thức và kịch bản.
- Nhãn đảng hiển thị: chỉ được sử dụng cho màu sắc và nhãn trong Tableau.
Đừng để nhãn hiển thị rò rỉ vào định nghĩa chỉ số. Đừng để các chuỗi thô định nghĩa các danh mục phân tích mà không có một hợp đồng rõ ràng.
Cách phân tích hoạt động
Dự án này tuân theo cách tiếp cận "mô hình trước": xây dựng đường ống dữ liệu, xuất các chỉ số, xây dựng trực quan hóa, sau đó để dữ liệu cho bạn biết câu chuyện mà nó thực sự hỗ trợ. Phát hiện về sự phân mảnh đã được sửa đổi, mối tương quan không đáng kể về tỷ lệ cử tri đi bầu, và sự dịch chuyển địa lý của sự trỗi dậy của Đảng Xanh đều xuất hiện từ việc xác thực chẩn đoán, không phải từ kế hoạch dự án ban đầu.
Đường ống dữ liệu tiêu thụ kết quả bầu cử cấp phường từ tập dữ liệu DCLEAPIL v1.0, chuẩn hóa các nhóm đảng, tổng hợp tỷ lệ phiếu bầu lên cấp thẩm quyền, tính toán các chỉ số phân mảnh và biến động, và xuất các tệp CSV có cấu trúc cho bảng điều khiển Tableau tương tác.
Các chỉ số cốt lõi bao gồm:
- Chỉ số phân mảnh: Số lượng đảng hiệu quả Laakso-Taagepera, từ tỷ lệ phiếu bầu cấp thẩm quyền.
- Điểm biến động: Một chỉ số tổng hợp kết hợp thành phần dao động tuyệt đối kiểu Pedersen với sự thay đổi của phân mảnh.
- Chênh lệch tỷ lệ cử tri đi bầu: Thay đổi tính bằng điểm phần trăm trong cùng một khoảng thời gian.
Số lượng đảng hiệu quả theo thẩm quyền
Tiêu đề: Biến động tăng, phân mảnh thì không
Bảng điều khiển đầu tiên ánh xạ sự biến động theo thẩm quyền. Kích thước vòng tròn đại diện cho điểm biến động. Màu sắc đại diện cho sự thay đổi của phân mảnh: màu xanh ngọc nơi nó tăng, màu hổ phách nơi nó giảm.
Bản đồ cho thấy hai điều cùng một lúc. Thứ nhất, biến động thực sự đã tăng: khoảng 1,9 lần cao hơn so với kỳ trước. Thứ hai, phân mảnh không tăng ở hầu hết các nơi. Chỉ có 18 trong số 67 thẩm quyền có thể so sánh có số lượng đảng hiệu quả cao hơn vào năm 2022 so với năm 2018.
Bài học rút ra từ khoa học dữ liệu: Khi hai chỉ số có liên quan (biến động và phân mảnh) di chuyển theo các hướng ngược nhau, câu chuyện phân tích sẽ thay đổi hoàn toàn. Luôn kiểm tra xem chỉ số tiêu đề của bạn và các chỉ số hỗ trợ có đồng thuận trước khi xuất bản hay không. Khoảng cách giữa hai nơi đó là nơi phát hiện thực sự nằm ở.
Cơ chế: Sự sụp đổ của Đảng Bảo thủ và sự hấp thụ không đồng đều
Biểu đồ dao động đảng giải thích cách biến động có thể tăng trong khi phân mảnh lại giảm.
Ở 67 hội đồng, dao động trung vị của nhóm đảng giữa năm 2018 và 2022 là: Đảng Lao động +8,5 điểm phần trăm, Đảng Bảo thủ -8,3, Đảng Dân chủ Tự do -2,3. Mọi đảng khác di chuyển ít hơn 0,3 điểm theo một trong hai hướng.
Các dao động này được tính toán trên các nhóm đảng đã chuẩn hóa. Đảng Lao động và Đảng Lao động và Hợp tác xã được nhóm lại với nhau, cũng như các nhãn UKIP, Reform UK và Brexit Party. Nếu không có sự chuẩn hóa này, dữ liệu thô sẽ cho thấy sự tăng trưởng gây hiểu lầm của Đảng Hợp tác xã bên cạnh sự mất mát của Đảng Lao động trong cùng một khu vực.
Dao động đảng trung vị và số lượng nổi lên địa phương
Đó là cơ chế: sự hấp thụ không đồng đều. Tại nơi Đảng Lao động hấp thụ sự mất mát của Đảng Bảo thủ một cách gọn gàng, biến động tăng nhưng phân mảnh thường giảm. Tại nơi một đảng thứ ba hấp thụ một phần sự mất mát, sự cạnh tranh địa phương trở nên phức tạp hơn.
Bài học về Khoa học Dữ liệu
Việc lựa chọn ngưỡng trong các bộ lọc danh mục xứng đáng được sự nghiêm ngặt tương tự như việc tinh chỉnh siêu tham số (hyperparameter tuning). Bộ lọc nổi lên ban đầu (dao động 5pp, không có mức sàn cơ sở) đã tạo ra 12 hội đồng "trỗi dậy" của Đảng Xanh. Việc kiểm tra chẩn đoán đã tiết lộ rằng 5 trong số đó là hiện vật của cơ sở thấp: các đảng đi từ 0,5% lên 5,5%. Việc thêm mức sàn cơ sở 2% đã giảm số lượng xuống còn 7 và thay đổi hoàn toàn thành phần địa lý.
Một bài học quan trọng khác là việc công bố các phát hiện null (kết quả không có tương quan) ngăn chặn các câu chuyện sai lệch trở thành mặc định. Các khung dây ban đầu giả định một mối tương quan tiêu lệ giữa tỷ lệ cử tri đi bầu và biến động. Khi tính toán trả về r = -0,12 (p = 0,35), tiêu đề đã được viết lại thay vì thu hẹp lại dữ liệu.
Kết luận
Các hội đồng tại Anh đã trải qua sự thay đổi cử tri lớn hơn nhiều giữa năm 2018 và 2022. Biến động trung vị tăng từ 12,0 lên 22,5. Nhưng số lượng đảng hiệu quả không tăng ở hầu hết các hội đồng. Sự phân mảnh chỉ tăng ở 18 trong số 67 thẩm quyền có thể so sánh, và sự thay đổi trung vị vẫn hơi âm.
Sự thay đổi cử tri địa phương có thể dữ dội mà không tạo ra một hệ thống đảng phân mảnh hơn. Cử tri đã di chuyển, nhưng ở nhiều nơi, họ di chuyển từ một cực thống trị này sang cực khác. Khi các đảng nhỏ hơn tiến lên, họ làm như vậy tại địa phương và không đồng đều, không phải là một làn sóng quốc gia thống nhất.
Bài học thực sự nằm ở thượng nguồn: danh mục là một phần của mô hình. Nếu bạn sai ở bước đó, mọi biểu đồ sẽ kể một câu chuyện thuyết phục nhưng sai lệch.



