GPT-NL: Mô hình ngôn ngữ độc lập của Hà Lan khẳng định chủ quyền kỹ thuật số

GPT-NL là dự án hợp tác giữa TNO, SURF và Viện Pháp y Hà Lan nhằm xây dựng một mô hình ngôn ngữ lớn (LLM) độc lập. Dự án tập trung vào tính minh bạch, bảo vệ quyền riêng tư và giảm sự phụ thuộc vào các công ty công nghệ lớn ngoài châu Âu.

Trí tuệ nhân tạo (AI) dựa trên ngôn ngữ đang trở thành một phần không thể thiếu trong môi trường làm việc, giáo dục và các dịch vụ công. Tuy nhiên, vấn đề kiểm soát công nghệ này đang trở nên cấp thiết hơn bao giờ hết. GPT-NL là minh chứng cho thấy một cách tiếp cận khác là hoàn toàn khả thi: một cách tiếp cận được xây dựng trên nền tảng quản trị mạnh mẽ, tính minh bạch và cam kết vững chắc đối với các giá trị công cộng.

Mô hình Generative AI

Các mô hình ngôn ngữ, được tích hợp vào các ứng dụng như ChatGPT, đã chứng minh tiềm năng to lớn của AI trong việc đổi mới, nâng cao năng suất và giải quyết các vấn đề xã hội. Song song với đó, chúng đặt ra những câu hỏi cơ bản. Ai quyết định cách thức hoạt động của các mô hình này? Chúng sử dụng dữ liệu nào? Và làm thế nào để chúng ta bảo vệ các giá trị công như quyền riêng tư, bản quyền và tính minh bạch?

Xây dựng hệ sinh thái AI độc lập

Với GPT-NL, TNO đã hợp tác cùng SURF và Viện Pháp y Hà Lan (NFI) để xây dựng một mô hình ngôn ngữ và hệ sinh thái độc lập dành cho tiếng Hà Lan. Đây là bước đi chiến lược nhằm tăng cường tính tự chủ kỹ thuật số của Hà Lan và châu Âu, đồng thời cung cấp nền tảng vững chắc cho các ứng dụng AI có trách nhiệm.

Saskia Lensink

Dự án không chỉ dừng lại ở việc tạo ra một thuật toán, mà còn hướng tới việc thiết lập các tiêu chuẩn mới cho sự phát triển AI tại châu Âu.

Bốn giá trị cốt lõi của GPT-NL

Đội ngũ phát triển GPT-NL cam kết xây dựng một mô hình ngôn ngữ có trách nhiệm dành cho ngữ cảnh tiếng Hà Lan dựa trên bốn trụ cột chính: Đáng tin cậy, Minh bạch, Có qua lại và Chủ quyền.

Chủ quyền: Kiểm soát công nghệ quan trọng

GPT-NL được phát triển hoàn toàn trong phạm vi Hà Lan và châu Âu. Điều này mang lại quyền kiểm soát tối đối với mô hình, dữ liệu và các quyết định thiết kế. Dự án giúp tránh sự phụ thuộc vào các nhà cung cấp ngoài châu Âu và đầu tư vào một hệ sinh thái AI bền vững, phù hợp với luật pháp, giá trị và mục tiêu xã hội của khu vực.

Minh bạch: Sự thấu hiểu từ nguồn gốc đến mô hình

GPT-NL được xây dựng dựa trên nguyên tắc minh bạch. Các lựa chọn trong quá trình thu thập dữ liệu và huấn luyện đều được ghi chép rõ ràng, bao gồm cả cách giải quyết các rủi ro như thiên kiến và vấn đề đạo đức. Mã nguồn được công bố dưới dạng mã nguồn mở và thông tin chi tiết về tập dữ liệu được chia sẻ rộng rãi. Trọng số của mô hình (model weights) được cung cấp theo giấy phép được kiểm soát, cho phép đội ngũ biết ai đang sử dụng mô hình và thông báo cho người dùng về các bản cập nhật hoặc thay đổi.

Đáng tin cậy: Bảo vệ người dùng và công dân

GPT-NL được huấn luyện hoàn toàn từ đầu (from scratch). Điều này ngăn chặn các rủi ro về nguồn gốc dữ liệu không rõ ràng, vi phạm bản quyền hoặc rò rỉ dữ liệu cá nhân từ các mô hình hiện có.

Để đảm bảo một nền tảng đáng tin cậy, quá trình thu thập dữ liệu đáp ứng các tiêu chí nghiêm ngặt:

Bảo vệ sở hữu trí tuệ
Loại bỏ và ẩn danh dữ liệu cá nhân trước khi huấn luyện
Loại trừ thông tin mật và nội dung gây hại
Tránh sự trùng lặp trong tập dữ liệu

Có qua lại: Thỏa thuận công bằng về dữ liệu và giá trị

GPT-NL chủ động làm việc với một chuỗi cung ứng dữ liệu sạch và hợp pháp. Dự án hợp tác chặt chẽ với các nhà cung cấp dữ liệu và lôi kéo họ tham gia vào quá trình phát triển mô hình. Thông qua "Hội đồng Nội dung" (Content Board), các nhà cung cấp dữ liệu và chủ sở hữu quyền lợi có tiếng nói trong tương lai của GPT-NL. Một phần doanh thu sẽ được hoàn trả cho các người sáng tạo, tạo ra một mô hình đổi mới công bằng hơn, nơi giá trị được chia sẻ thay vì chỉ đơn thuần khai thác.

Quản trị AI

Sử dụng tài nguyên hiệu quả và trách nhiệm giải trình

Phát triển AI đòi hỏi sức mạnh tính toán và năng lượng lớn. Vì vậy, GPT-NL tập trung tích cực vào hiệu quả năng lượng và sử dụng tài nguyên có trách nhiệm. Dựa trên nghiên cứu khoa học, đội ngũ tối ưu hóa cả kích thước mô hình và quy trình huấn luyện, chú trọng đặc biệt đến mức tiêu thụ năng lượng và nước.

Dự án được Cơ quan Doanh nghiệp Hà Lan (RVO) tài trợ với tổng số vốn 13,5 triệu euro nhân danh Bộ Kinh tế và Chính sách Khí hậu. khoản đầu tư công này nhấn mạnh tầm quan trọng của một mô hình ngôn ngữ tiếng Hà Lan độc lập, đáng tin cậy và tương lai.

GPT-NL cho thấy AI mạnh mẽ và các giá trị công cộng có thể song hành cùng nhau. Cùng nhau, họ đang xây dựng công nghệ giúp Hà Lan mạnh mẽ hơn, tự chủ hơn và công bằng hơn.