Dữ liệu GitHub Innovation Graph hé lộ "sự phức tạp kỹ thuật số" của các quốc gia

Công nghệ08 tháng 5, 2026·5 phút đọc

Các nhà nghiên cứu đã sử dụng dữ liệu từ GitHub Innovation Graph để đo lường chỉ số phức tạp kinh tế dựa trên phần mềm, giúp dự đoán GDP và bất bình đẳng xã hội một cách chính xác hơn mà các số liệu kinh tế truyền thống thường bỏ sót.

Dữ liệu GitHub Innovation Graph hé lộ "sự phức tạp kỹ thuật số" của các quốc gia

Một trong những mục tiêu chính của GitHub Innovation Graph là thúc đẩy các nghiên cứu về tác động kinh tế của phần mềm mã nguồn mở và sự hợp tác giữa các nhà phát triển. Mới đây, một bài báo đăng trên tạp chí Research Policy của bốn nhà nghiên cứu đã sử dụng dữ liệu này để làm sáng tỏ "sự phức tạp kỹ thuật số" của các quốc gia.

Bài viết đi sâu vào việc liệu địa lý sản xuất phần mềm mã nguồn mở trên GitHub có thể tiết lộ mức độ phức tạp kỹ thuật số của một quốc gia hay không, và liệu mức độ này có dự đoán được GDP, bất bình đẳng và lượng khí thải theo những cách mà dữ liệu kinh tế truyền thống thường bỏ sót hay không.

Dữ liệu GitHub Innovation GraphDữ liệu GitHub Innovation Graph

Vật chất tối kỹ thuật số

Trong 15 năm qua, các nhà kinh tế học thường đo lường sự phức tạp của nền kinh tế quốc gia thông qua hàng hóa vật chất, bằng sáng chế và các công trình nghiên cứu. Tuy nhiên, các phương pháp này có một điểm mù lớn: phần mềm.

Mã nguồn không cần thông quan hay vận chuyển vật lý; nó vượt biên giới thông qua lệnh git push, các dịch vụ đám mây và trình quản lý gói phần mềm. Do đó, toàn bộ tri thức sản xuất này về cơ bản là vô hình, được một số đồng nghiệp gọi là "vật chất tối kỹ thuật số" (digital dark matter) của nền kinh tế.

Để khắc phục điều này, nhóm nghiên cứu đã sử dụng GitHub Innovation Graph, theo dõi số lượng nhà phát triển ở từng nền kinh tế đẩy mã (push code) theo từng ngôn ngữ lập trình dựa trên địa chỉ IP. Họ đã áp dụng Chỉ số Phức tạp Kinh tế (ECI - Economic Complexity Index) vào dữ liệu này.

Phương pháp nghiên cứu: Từ ngôn ngữ đến "Gói phần mềm"

Thay vì xem xét từng ngôn ngữ lập trình riêng lẻ, nhóm nghiên cứu nhận thấy rằng phần mềm thực tế thường sử dụng sự kết hợp của nhiều ngôn ngữ. Ví dụ, một ứng dụng web có thể kết hợp HTML, CSS và JavaScript, trong khi một dự án khoa học dữ liệu lại dùng Python và Jupyter Notebook.

Thông qua GitHub GraphQL API, họ đã truy vấn tất cả các kho lưu trữ (repositories) hoạt động vào năm 2024 để tìm ra các ngôn ngữ xuất hiện cùng nhau. Sau khi tính toán độ tương đồng cosin và áp dụng phân cụm phân cấp, 150 ngôn ngữ đã được nhóm lại thành 59 "gói phần mềm" (software bundles). Mỗi gói đại diện cho một stack công nghệ nhất quán.

Phân tích dữ liệuPhân tích dữ liệu

Ví dụ như những căn bếp

César A. Hidalgo, một trong những tác giả nghiên cứu, đã đưa ra một ví dụ dễ hiểu về phương pháp này. Hãy tưởng tượng các quốc gia giống như những căn bếp. Một số bếp có thể nấu bất cứ món gì nhờ có nguyên liệu và công cụ đa dạng. Những bếp khác lại hạn chế hơn, chỉ có thể nấu cơm và làm vài món đơn giản.

Chỉ số ECI cho phép ước tính "sự phức tạp" của căn bếp đó dựa trên các món ăn họ sản xuất ra. Một quốc gia chỉ có Python và JavaScript giống như một quán cơm gà, trong khi một quốc gia có khả năng lập trình các hệ thống nhúng được chứng nhận cho hàng không vũ trụ và quốc phòng thì giống như một nhà hàng sao Michelin.

Kết quả đáng chú ý

Nghiên cứu chỉ ra rằng Chỉ số Phức tạp Kinh tế dựa trên phần mềm (Software ECI) cung cấp thông tin mới mà dòng chảy thương mại, bằng sáng chế và dữ liệu nghiên cứu chưa khai thác hết. Cụ thể, Software ECI giúp giải thích sự biến thiên của GDP bình quân đầu người và bất bình đẳng thu nhập ngay cả khi đã kiểm soát các thước đo truyền thống.

Dưới đây là Top 20 nền kinh tế có chỉ số phức tạp phần mềm cao nhất:

  1. Đức
  2. Úc
  3. Canada
  4. Hà Lan
  5. Pháp
  6. Hoa Kỳ
  7. Ba Lan
  8. Anh
  9. Ý
  10. Thụy Điển

Hạn chế và Tương lai

Mặc dù đầy hứa hẹn, nghiên cứu này vẫn có những hạn chế. Một trong những nhược điểm lớn là dữ liệu chỉ phản ánh hoạt động công khai trên GitHub, nghĩa là bỏ lỡ hoàn toàn phần mềm độc quyền (proprietary software). Do đó, thước đo này có thể đánh thấp sự phức tạp phần mềm ở các quốc gia có văn hóa mã nguồn mở chưa phát triển mạnh.

Ngoài ra, cửa sổ thời gian 4 năm (2020–2023) là đủ để phân tích mặt cắt ngang nhưng chưa đủ dài để kiểm tra dự đoán tăng trưởng dài hạn một cách đáng tin cậy.

Về tương lai, các nhà nghiên cứu đặc biệt quan tâm đến tác động của AI tạo sinh (Generative AI). Nếu các trợ lý lập trình AI hạ thấp rào cản khi làm việc với các ngôn ngữ mới, liệu "nguyên tắc liên quan" có bị suy yếu không? Các quốc gia sẽ đa dạng hóa nhanh hơn hay AI sẽ củng cố lợi thế hiện có?

Lời khuyên cho các nhà phát triển và hoạch định chính sách

Đối với các nhà hoạch định chính sách, phần mềm là một mục tiêu thú vị cho chính sách công nghiệp vì nó phụ thuộc chủ yếu vào vốn nhân lực có tính di động cao. Các quốc gia tìm ra cách thu hút nhân tài phần mềm mà không làm họ ngột ngạt bởi các quy định kém thiết kế sẽ dẫn đầu.

Đối với các nhà phát triển, việc hiểu rằng các địa điểm có sự chuyên môn hóa rất cao về loại phần mềm họ sản xuất sẽ rất hữu ích khi muốn định cư. Các nhà phát triển có thể sử dụng biểu diễn không gian sản phẩm của các khả năng phần mềm để biết kỹ năng của mình phù hợp với quốc gia nào.

Chia sẻ:FacebookX
Nội dung tổng hợp bằng AI, mang tính tham khảo. Xem bài gốc ↗