Kế hoạch dùng dữ liệu công khai thúc đẩy AI của Anh đối mặt với nhiều thách thức
Hy vọng của Anh Quốc trong việc thúc đẩy phát triển AI thông qua Thư viện Dữ liệu Quốc gia (NDL) đang bị đe dọa do chất lượng dữ liệu hiện tại quá kém. Một nghiên cứu mới cảnh báo rằng nếu các bộ dữ liệu chính thức không được chuẩn hóa tốt hơn, các tác nhân AI sẽ bỏ qua nguồn tin này để tìm kiếm thông tin từ các kênh thiếu độ tin cậy khác.

Kế hoạch dùng dữ liệu công khai thúc đẩy AI của Anh đối mặt với nhiều thách thức
Hy vọng của Anh Quốc trong việc thúc đẩy phát triển AI thông qua Thư viện Dữ liệu Quốc gia (NDL) đang bị đe dọa do chất lượng dữ liệu hiện tại quá kém. Một nghiên cứu mới cảnh báo rằng nếu các bộ dữ liệu chính thức không được chuẩn hóa tốt hơn, các tác nhân AI sẽ bỏ qua nguồn tin này để tìm kiếm thông tin từ các kênh thiếu độ tin cậy khác.
Chất lượng dữ liệu kém cản trở sự phát triển
Trong Ngân sách mùa Thu năm 2024, chính phủ Anh đã xác nhận kế hoạch xây dựng NDL, cam kết mang lại những "sự hiểu biết sâu sắc" sẽ thúc đẩy tăng trưởng và cải thiện chất lượng cuộc sống thông qua các dịch vụ công tốt hơn và đổi mới sáng tạo, bao gồm cả trí tuệ nhân tạo. Đến tháng 1, chính phủ đã công bố bản cập nhật, cho biết kế hoạch này được hỗ trợ bởi khoản đầu tư 100 triệu bảng Anh.
Tuy nhiên, một nghiên cứu từ Viện Dữ liệu Mở (ODI) chỉ ra rằng những kỳ vọng này có thể bị dập tắt trừ khi việc sử dụng các bộ dữ liệu trở nên dễ dàng hơn. ODI đã công bố một nguyên mẫu "NDL-Lite" với quyền truy cập vào hơn 100.000 bộ dữ liệu công cộng và phát hiện ra rằng nhiều dữ liệu, đặc biệt là trên data.gov.uk, được gắn nhãn sai, lỗi thời hoặc thực sự vô hình đối với các công cụ AI.
Nghiên cứu thu thập 38 GB dữ liệu từ sáu nguồn khu vực công, xử lý và chuẩn hóa hơn 100.000 tệp thành một nguồn tài nguyên duy nhất. Mặc dù kết quả cho thấy NDL có thể được xây dựng với chi phí tương đối thấp, nó cũng làm nổi bật khối lượng công việc cần thiết để làm cho dữ liệu sẵn sàng cho AI.
AI sẽ tìm kiếm thông tin ở nơi khác
Khi dữ liệu có thẩm quyền khó tiếp cận, các hệ thống AI sẽ chuyển sang các nguồn khác như báo cáo tin tức hoặc dữ liệu thương mại, những nguồn này không phải lúc nào cũng cung cấp thông tin chính xác. ODI cảnh báo rằng ngay cả các thuật ngữ chung chung như "tội phạm" cũng khó phân tích hoặc theo dõi đúng cách.
Một số bộ dữ liệu có nhãn này là các bản phát hành thống kê của chính quyền địa phương không thể kết hợp do thiếu các tiêu chuẩn chung. Các bộ dữ liệu quốc gia cũng bị lỗi thời hoặc không thể truy cập. Một bộ dữ liệu tội phạm lớn của Bộ Nội vụ Anh không được cập nhật kể từ năm 2018. Mặc dù có phiên bản cập nhật, nhưng nó không thể truy cập được qua API do Văn phòng Thống kê Quốc gia (ONS) cung cấp.
Giáo sư Elena Simperl, Giám đốc Nghiên cứu tại ODI, cho biết các phát hiện này làm nổi bật khoảng cách ngày càng tăng giữa khối lượng dữ liệu công cộng có sẵn và tính khả dụng thực tế của nó.
"Đối với thống kê tội phạm, các tác nhân AI sẽ đi tìm thông tin từ nơi khác. Nếu bạn không cập nhật dữ liệu của mình, nếu siêu dữ liệu của bạn không có chất lượng tốt và có nhiều giá trị bị thiếu, chúng ta có thể thấy từ các thử nghiệm với tác nhân AI mà chúng tôi xây dựng rằng chúng sẽ chỉ đơn giản là lờ đi dữ liệu có sẵn. Nó sẽ đi đến nơi khác trên mạng xã hội và các nơi khác để cố gắng tìm thông tin đó trong một báo cáo nào đó, vì việc đó dễ dàng hơn nhiều đối với chúng," bà Simperl nói.
Bà cũng nhấn mạnh: "Thư viện Dữ liệu Quốc gia của chính phủ có tiềm năng to lớn, nhưng phần lớn dữ liệu mà nó dựa vào vẫn chưa thể sử dụng được bởi các hệ thống AI hiện đại. Nếu tình trạng đó không thay đổi, có nguy cơ là các công cụ AI sẽ ngày càng phụ thuộc vào các nguồn dễ tiếp cận hơn, thay vì những nguồn đáng tin cậy nhất."
Chính phủ Anh nỗ lực cải tổ hạ tầng số
Một phát ngôn viên của chính phủ cho biết họ muốn "tối đa hóa lợi ích của dữ liệu khu vực công" nhằm làm cho dịch vụ "hiệu quả hơn và tăng trưởng kinh tế".
"Phản ánh những phát hiện này, chúng tôi đang hiện đại hóa hạ tầng kỹ thuật số công của Anh thông qua Lộ trình cho Chính phủ Kỹ thuật số Hiện đại. Điều này bao gồm việc xây dựng cơ sở hạ tầng mới như Thư viện Dữ liệu Quốc gia theo cách đảm bảo dữ liệu khu vực công được chia sẻ và sử dụng dễ dàng hơn, nâng cấp các hệ thống lỗi thời và đưa ra hướng dẫn mới cho việc sử dụng dữ liệu công an toàn và đạo đức," đại diện chính phủ tuyên bố.
Bài học từ những dự án trước
Thư viện Dữ liệu Quốc gia là dự án mới nhất được thiết kế để giúp các nhà nghiên cứu và nhà khoa học dữ liệu tìm thấy tất cả dữ liệu công khai họ cần. Trước đó, Dịch vụ Nghiên cứu Bảo mật (SRS), được ra mắt năm 2004, cung cấp các bộ dữ liệu đã được biên tập sẵn cho các nhà nghiên cứu được công nhận.
Vào năm 2020, chính phủ đã lên kế hoạch thay thế hệ thống này bằng Dịch vụ Dữ liệu Tích hợp (IDS) từ ONS. Tuy nhiên, một phần ngân sách 240,8 triệu bảng Anh của IDS đã được sử dụng - với sự chấp thuận của Bộ trưởng Tài chính - để tài trợ cho các chi phí kỹ thuật và dữ liệu chung hơn khi ONS gặp khó khăn trong việc thoát khỏi các hệ thống IT cũ. Kinh phí cho IDS thực tế đã bị cắt vào tháng 3, mặc dù các dịch vụ hiện có sẽ tiếp tục hoạt động, chủ yếu trong ONS, khiến bỏ lỡ một trong những mục tiêu chính.
NDL hiện là kế hoạch mới để chia sẻ dữ liệu quốc gia hỗ trợ nghiên cứu, học máy và AI. Nghiên cứu của ODI cho thấy công việc cần thiết để tránh bỏ lỡ một cơ hội khác.



