Ứng dụng Suy luận Nhân quả (Causal Inference) để Đánh giá Tác động của Đình công Tàu điện ngầm đến Lượng người đi Xe đạp tại London

22 tháng 4, 2026·5 phút đọc

Bài viết phân tích cách sử dụng dữ liệu mở của TfL và các kỹ thuật Suy luận Nhân quả (Causal Inference) để đo lường ảnh hưởng của các cuộc đình công tàu điện ngầm đối với việc sử dụng xe đạp Santander tại London. Kết quả cho thấy sự gia tăng khoảng 4% lượng xe đạp vào ngày đình công, đồng thời làm rõ tầm quan trọng của việc xử lý dữ liệu và lựa chọn mô hình thống kê phù hợp.

Ứng dụng Suy luận Nhân quả (Causal Inference) để Đánh giá Tác động của Đình công Tàu điện ngầm đến Lượng người đi Xe đạp tại London

Transport for London (TfL) là cơ quan quản lý mạng lưới giao thông công cộng của London, nổi tiếng với chính sách "Open Data" (dữ liệu mở). Nhờ chính sách này, hàng trăm ứng dụng đã được tạo ra để phục vụ người dân, và một trong những nguồn dữ liệu thú vị nhất là dữ liệu sử dụng xe đạp Santander (thường được gọi là Boris Bikes).

Dữ liệu giao thông LondonDữ liệu giao thông London

Mỗi hành trình bằng xe đạp đều được ghi lại, tạo ra một kho dữ liệu khổng lồ từ năm 2015 đến 2025. Tuy nhiên, dữ liệu thô này bao gồm 144 tệp CSV hàng tuần với hơn 9,2 triệu bản ghi, đòi hỏi quá trình xử lý phức tạp trước khi có thể đưa vào phân tích.

Từ dữ liệu thô đến tập dữ liệu có thể phân tích

Để chuẩn bị dữ liệu cho các mô hình nâng cao, các tệp CSV đã được chuyển đổi sang định dạng Parquet để tối ưu hóa bộ nhớ. Sau đó, dữ liệu được tổng hợp theo từng trạm xe và từng giờ. Một bước quan trọng trong phân tích không gian là sử dụng hệ thống lưới lục giác H3 (được Uber phát triển) để ánh xạ các trạm xe đạp vào các ô lưới cụ thể.

Phân tích không gian với lưới H3Phân tích không gian với lưới H3

Việc này giúp chúng ta tổng hợp dữ liệu ở cấp độ ô-ngày (cell-day), kết hợp thông tin về số chuyến đi với các yếu tố gây nhiễu (confounders) như thời tiết, tính mùa vụ, và các ngày nghỉ lễ. Chúng ta cũng lọc dữ liệu để đảm bảo mỗi ô lưới đều có ít nhất một trạm tàu điện ngầm trong phạm vi 500m, nhằm thỏa mãn "Giả định Tích cực" (Positivity Assumption) trong suy luận nhân quả.

Câu hỏi về Nhân quả: Đình công ảnh hưởng thế nào?

Mục tiêu của nghiên cứu không chỉ là tìm thấy sự tương quan, mà là xác định mối quan hệ nhân quả: Liệu các cuộc đình công tàu điện ngầm có thực sự khiến người dân chuyển sang đi xe đạp không?

Cơ chế nhân quả ở đây là sự thay thế (substitution). Khi tàu điện ngầm ngừng hoạt động, hành khách bị buộc phải tìm phương án thay thế. Xe đạp Santander là lựa chọn khả dĩ nhất tại các trạm trung tâm lớn vì tính sẵn có và chi phí thấp.

Để đo lường điều này, chúng ta xác định hai biến số chính:

  • Biến kết quả (Outcome): Logarithm của số chuyến xe đạp mỗi trạm, giúp đo lường sự thay đổi theo tỷ lệ phần trăm.
  • Biến xử lý (Treatment): Một chỉ số nhị phân cho biết một ô lưới có bị ảnh hưởng bởi đình công hay không (định nghĩa là nằm trong phạm vi 400m từ trạm tàu đang đình công).

Phương pháp luận: Dữ liệu bảng và Hiệu ứng cố định

Chúng ta sử dụng khung lý thuyết "Kết quả tiềm năng" (Potential Outcomes) để định nghĩa hiệu ứng xử lý trung bình (ATE). Tuy nhiên, việc so sánh đơn giản giữa ngày đình công và ngày bình thường thường dẫn đến "Thiên lệch lựa chọn" (Selection Bias). Các khu vực trung tâm London vốn có lượng xe đạp cao hơn, nên việc so sánh trực tiếp sẽ không chính xác.

Mô hình hóa dữ liệuMô hình hóa dữ liệu

Để khắc phục điều này, chúng ta sử dụng mô hình Hiệu ứng cố định hai chiều (Two-Way Fixed Effects - TWFE) trên dữ liệu bảng (Panel Data). Mô hình này có dạng:

$$Y_{i,t} = \alpha_{i} + \lambda_{t} + \tau D_{i,t} + \beta X_{i,t} + \epsilon_{i,t}$$

Trong đó:

  • $\alpha_{i}$: Hiệu ứng cố định của ô lưới (loại bỏ các đặc điểm địa lý bất biến theo thời gian).
  • $\lambda_{t}$: Hiệu ứng cố định của ngày (loại bỏ các cú sốc chung ảnh hưởng toàn thành phố).
  • $\tau$: Hiệu ứng nhân quả mà chúng ta muốn tìm.

Chúng ta cũng sử dụng phương pháp nhóm sai số (cluster standard errors) ở cấp độ ô lưới để xử lý sự tương quan trong dữ liệu theo thời gian.

Kết quả và Thách thức thực tế

Kết quả phân tích cho thấy trong các ngày đình công, lượng sử dụng xe đạp Santander tăng khoảng 3,95% tại các khu vực trung tâm London. Mặc dù giá trị p (0.097) cao hơn ngưỡng 0.05 thông thường, nhưng sự nhất quán của các ước tính cho thấy hiệu ứng này là có thật.

Để đạt được kết quả này, chúng ta đã phải tinh chỉnh dữ liệu rất kỹ:

  • Chỉ tập trung vào các ô lưới gần 42 trạm tàu lớn nhất ở trung tâm.
  • Giới hạn phạm vi thời gian trong vòng 45 ngày trước và sau mỗi cuộc đình công để giảm nhiễu theo mùa.

Bài học từ Khoa học Dữ liệu thực tế

Nghiên cứu này minh họa rằng làm việc với dữ liệu thực tế luôn đầy rẫy thách thức. Từ việc làm sạch 144 tệp CSV không đồng nhất, sửa lỗi ánh xạ không gian, đến việc lựa chọn mô hình thống kê phù hợp (chọn TWFE thay vì các meta-learners phức tạp của Machine Learning), mọi bước đều đòi hỏi sự hiểu biết sâu sắc về cả dữ liệu lẫn lý thuyết thống kê.

Đôi khi, một mô hình kinh tế lượng cổ điển nhưng vững chắc lại hiệu quả hơn các thuật toán Machine Learning hiện đại nếu không phù hợp với cấu trúc dữ liệu và câu hỏi nghiên cứu.

Bài viết được tổng hợp và biên soạn bằng AI từ các nguồn tin tức công nghệ. Nội dung mang tính tham khảo. Xem bài gốc ↗