Khám phá bộ dữ liệu GM-SEUS v2: Phân tích 3,4 triệu tấm pin mặt trời tại Mỹ
Phiên bản mới nhất của bộ dữ liệu GM-SEUS đã được phát hành, cung cấp thông tin chi tiết về hơn 3,4 triệu tấm pin mặt trời và các dãy pin trên mái nhà. Bài viết này sẽ đi sâu vào quy trình xử lý dữ liệu quy mô lớn sử dụng phần mềm mã nguồn mở và cấu hình phần cứng hiệu năng cao.

Vào tháng 10, tôi đã có dịp xem xét bộ dữ liệu GM-SEUS (Ground-Mounted Solar Energy in the United States). Bộ dữ liệu này phác thảo vị trí của phần lớn các trang trại năng lượng mặt trời và các tấm pin trên khắp nước Mỹ. Phiên bản đầu tiên lúc bấy giờ chứa 2,9 triệu tấm pin.
Vào thứ Hai vừa qua, phiên bản 2 của bộ dữ liệu này đã được phát hành với quy mô lớn hơn nhiều, hiện chứa hơn 3,4 triệu tấm pin. Bên cạnh việc cập nhật thông tin các tấm pin và dãy pin, phiên bản mới còn bổ sung thêm tập dữ liệu về các hệ thống pin trên mái nhà.
Trong bài viết này, tôi sẽ cùng các bạn khám phá quy trình phân tích bộ dữ liệu GM-SEUS v2 này.
Cấu hình máy trạm làm việc
Để xử lý khối lượng dữ liệu địa lý (geospatial data) khổng lồ này, một cấu hình phần cứng mạnh mẽ là yếu tố tiên quyết. Tôi sử dụng hệ thống với CPU AMD Ryzen 9 9950X xung nhịp 5.7 GHz, 16 nhân và 32 luồng. Máy được trang bị 96 GB RAM DDR5 chạy ở tốc độ 4.800 MT/s và ổ cứng SSD NVMe M.2 Crucial T700 thế hệ 5 dung lượng 4 TB với tốc độ đọc lên tới 12.400 MB/s.
Hệ thống chạy Ubuntu 24 LTS thông qua WSL (Windows Subsystem for Linux) trên Windows 11 Pro. Lý do tôi vẫn giữ Windows làm môi trường chính là do card đồ họa Nvidia GTX 1080 có hỗ trợ trình điều khiển tốt hơn trên hệ điều hành này, đồng thời phần mềm ArcGIS Pro chỉ hỗ trợ nền tảng Windows một cách nguyên bản.
Cấu hình hệ thống và phần mềm QGIS
Thiết lập công cụ phần mềm
Để phân tích dữ liệu, tôi sử dụng kết hợp nhiều công cụ mã nguồn mở mạnh mẽ:
- GDAL 3.9.3: Thư viện quan trọng để chuyển đổi và xử lý dữ liệu địa lý.
- DuckDB: Hệ quản trị cơ sở dữ liệu phân tích (OLAP) cực nhanh, được cài đặt thêm các tiện ích mở rộng (extensions) như H3 (để lập lưới không gian), JSON, Parquet và Spatial.
- QGIS 4.0.1: Phần mềm mã nguồn mở hàng đầu để trực quan hóa dữ liệu trên bản đồ. Tôi sử dụng plugin HCMGIS để thêm các lớp bản đồ nền từ Esri.
Quá trình cài đặt và cấu hình DuckDB được thực hiện để tự động tải các tiện ích mỗi khi khởi động, giúp tối ưu hóa quy trình làm việc.
Xử lý và chuẩn bị dữ liệu
Bộ dữ liệu GM-SEUS v2 có dung lượng khoảng 3,4 GB dưới dạng file nén. Sau khi tải về, tôi giải nén các file GeoPackage (GPKG) và sử dụng DuckDB để chuyển đổi chúng sang định dạng Parquet. Định dạng Parquet được lựa chọn nhờ khả năng nén cao và tốc độ đọc ghi xuất sắc, đặc biệt khi làm việc với các cột dữ liệu cụ thể.
Quá trình chuyển đổi bao gồm các bước làm sạch dữ liệu như xử lý các giá trị null (ví dụ: thay thế giá trị -9999.0 bằng NULL), chuyển đổi hệ tọaạ từ projection sang WGS84 (EPSG:4326) và tính toán bounding box cho từng đối tượng.
Bản đồ nhiệt trực quan hóa dữ liệu
Phân tích các dãy pin trên mái nhà
Tập dữ liệu về các dãy pin trên mái nhà (Rooftop Arrays) chứa 5.822 bản ghi. Thông qua các truy vấn SQL, tôi đã tổng hợp được các thông tin thống kê thú vị:
- Nguồn dữ liệu: OpenStreetMap (OSM) chiếm số lượng lớn nhất với 2.175 bản ghi, tiếp theo là CECSFC và TZSAM.
- Loại pin và giá đỡ: Phần lớn các hệ thống sử dụng tấm pin tinh thể silic (c-si). Các loại giá đỡ bao gồm trục đơn, trục kép và cố định.
- Diện tích theo năm lắp đặt: Dữ liệu cho thấy xu hướng lắp đặt tăng trưởng mạnh mẽ từ năm 2010. Năm 2023 ghi nhận số lượng hệ thống lắp đặt mới cao nhất, với diện tích trung bình khoảng 18.865 đơn vị.
Tôi cũng sử dụng hệ thống lưới H3 (một hệ thống phân chia địa cầu thành các lục giác) để tạo bản đồ nhiệt (heatmap), giúp trực quan hóa mật độ các hệ thống pin mặt trời trên mái nhà theo từng khu vực.
Phân tích các trang trại năng lượng mặt trời và tấm pin
Đây là phần dữ liệu chính với quy mô khổng lồ:
- Tấm pin (Panels): 3.429.157 bản ghi.
- Dãy pin (Arrays): 18.980 bản ghi.
Bộ dữ liệu này cung cấp thông tin chi tiết về từng tấm pin và từng dãy pin, bao gồm diện tích, phương hướng (azimuth), độ nghiêng (tilt), và công suất (MW).
Chi tiết các dãy pin trên bản đồ QGIS
Thống kê công suất lắp đặt theo năm cho thấy sự bùng nổ của năng lượng mặt trời. Trong khi những năm đầu thập niên 2000 công suất trung bình còn thấp, thì đến năm 2023-2024, công suất AC trung bình của một dãy pin đã lên tới khoảng 34-37 MW. Công suất DC tối đa ghi nhận trong bộ dữ liệu này lên tới hơn 1.400 MW.
Tuy nhiên, việc trực quan hóa trên QGIS cũng chỉ ra những hạn chế nhất định. Không phải tất cả các trang trại năng lượng mặt trời đều được phát hiện trong bộ dữ liệu này. Một số dãy pin đã được đánh dấu vị trí chung chung nhưng không chi tiết từng tấm pin.
Kết luận
Bộ dữ liệu GM-SEUS v2 là một nguồn tài nguyên quý giá cho bất kỳ ai quan tâm đến phân tích năng lượng tái tạo tại Mỹ. Với hơn 3,4 triệu tấm pin được lập bản đồ, nó cung cấp cái nhìn sâu sắc về cơ sở hạ tầng năng lượng mặt trời hiện nay.
Việc kết hợp giữa phần cứng mạnh mẽ, DuckDB cho xử lý dữ liệu nhanh chóng và QGIS cho trực quan hóa đã chứng minh hiệu quả của quy trình khoa học dữ liệu hiện đại (data science pipeline) trong việc xử lý các tập dữ liệu không gian phức tạp.



