Thu thập dữ liệu từ 241 cổng quy hoạch tại Anh: 2,6 triệu quyết định và những bài học kỹ thuật

28 tháng 4, 2026·4 phút đọc

Một dự án cá nhân đầy tham vọng đã thu thập thành công 2,6 triệu quyết định quy hoạch từ 241 hội đồng địa phương tại Anh, vạch trần sự phức tạp của hạ tầng dữ liệu công cộng. Quá trình này đòi hỏi sự kết hợp của nhiều kỹ thuật thu thập dữ liệu hiện đại để vượt qua các rào cản bảo mật như AWS WAF và TLS fingerprinting.

Dữ liệu quy hoạch tại Vương quốc Anh về mặt kỹ thuật là công khai, nhưng trên thực tế, chúng bị "nhốt" chặt sau hơn 400 cổng thông tin của các hội đồng địa phương khác nhau. Một số cổng này vẫn chạy trên những hệ thống ASP.NET tùy chỉnh trông có vẻ từ năm 2004, số khác được bảo vệ bởi AWS WAF, và tất cả đều có sơ đồ dữ liệu (schema) khác nhau đôi chút.

Tôi đã dành bốn tháng qua để thực hiện việc thu thập dữ liệu (web scraping) từ các nguồn này. Hiện tại, tôi đã truy xuất được dữ liệu từ 241 hội đồng với tổng cộng 2,6 triệu quyết định trên khắp nước Anh, Scotland và xứ Wales.

Thách thức trong việc thu thập dữ liệu

Đa số các hội đồng tại Anh đều vận hành một trong số ít các hệ thống cổng thông tin phổ biến, trong đó Idox là phổ biến nhất. Về lý thuyết, điều này làm cho việc thu thập dữ liệu trở nên dễ dàng. Tuy nhiên, trong thực tế, mỗi hội đồng lại cấu hình hệ thống của họ theo một cách riêng biệt.

Một số hội đồng chặn các yêu cầu không phải từ trình duyệt thông qua TLS fingerprinting (dấu vân tay TLS), một số áp đặt giới hạn tốc độ (rate limit) nghiêm ngặt sẽ chặn IP của bạn chỉ trong vòng 10 phút, và một số ít vẫn đang chạy các hệ thống ASP.NET tùy chỉnh cũ kỹ đã đề cập.

Giải pháp kỹ thuật

Để giải quyết vấn đề, tôi đã phải viết nhiều bộ thu thập dữ liệu (scraper) khác nhau:

  • Một bộ sử dụng thư viện requests tiêu chuẩn.
  • Một bộ dựa trên Playwright dành cho các hội đồng chặn mọi thứ trừ khi nó trông giống như một trình duyệt thật.
  • Một bộ sử dụng curl_cffi để xử lý vấn đề TLS fingerprinting.

Tuy nhiên, vẫn có một số hội đồng mà tôi chưa thể truy cập được. Ví dụ, cổng thông tin của Liverpool nằm sau AWS WAF với một thử thách JavaScript. Tôi có một bộ scraper dùng Playwright hoạt động, giải quyết thử thách một lần và tái sử dụng cookie, nhưng WAF lại giới hạn tốc độ IP sau khoảng 10 yêu cầu và sau đó chặn tôi trong cả ngày. Kết quả là tôi có 60.000 quyết định của Liverpool từ một lần thu thập cũ nhưng không có cách nào dễ dàng để thêm dữ liệu mới.

Những phát hiện thú vị

Tỷ lệ phê duyệt là điều mà hầu hết mọi người quan tâm nhất. Trên toàn quốc, tỷ lệ này vào khoảng 88%, nhưng nó biến động mạnh tùy theo từng khu vực (ward) trong cùng một hội đồng, không chỉ chênh lệch giữa các hội đồng với nhau.

Phát hiện thú vị hơn đến từ dữ liệu về thời gian ra quyết định. Cụ thể, trên 119 hội đồng tại Anh và xứ Wales, 36,5% đơn xin mở rộng nhà ở đã bỏ lỡ mục tiêu pháp định là 8 tuần vào năm 2025, tăng so với mức 27,9% vào năm 2019. Guildford là nơi có tình trạng tồi tệ nhất với quy mô lớn: 66% quyết định vượt quá mục tiêu, trung bình mất 13,3 tuần.

Sản phẩm và phản hồi

Hiện tại, dự án cung cấp công cụ kiểm tra mã bưu chính (miễn phí) và các báo cáo PDF trả phí (giá £19 hoặc £79). Dù chưa có khách hàng trả phí nào, tôi vẫn tập trung cao độ vào chất lượng dữ liệu và độ phủ.

Trang web của dự án là planninglens.co.uk nếu bạn muốn trải nghiệm. Mặc dù khía cạnh kỹ thuật rất thú vị, nhưng vẫn có những ý kiến cho rằng mô hình kinh doanh hiện tại chưa thuyết phục. Một số người dùng cho rằng giá £19 là khá cao cho một trang web chưa cung cấp đủ thông tin minh bạch trước khi yêu cầu thanh toán, và việc đặt quảng cáo upsell ở trang cuối cùng của báo cáo trả phí là một trải nghiệm người dùng tồi.

Bài viết được tổng hợp và biên soạn bằng AI từ các nguồn tin tức công nghệ. Nội dung mang tính tham khảo. Xem bài gốc ↗