GPT-NL là dự án hợp tác xây dựng mô hình ngôn ngữ lớn dành riêng cho tiếng Hà Lan, tập trung vào quyền tự chủ kỹ thuật số, minh bạch dữ liệu và bảo vệ quyền riêng tư. Dự án nhằm tạo ra một hệ sinh thái AI đáng tin cậy, độc lập và bền vững, giảm sự phụ thuộc vào các nhà cung cấp công nghệ lớn bên ngoài Châu Âu.

GPT-NL: Mô hình ngôn ngữ AI chủ quyền của Hà Lan hướng tới minh bạch và công bằng

Trí tuệ nhân tạo dựa trên ngôn ngữ đang ngày càng trở thành một phần không thể thiếu trong nơi làm việc, giáo dục và các dịch vụ công. Tuy nhiên, vấn đề kiểm soát công nghệ này là vô cùng quan trọng. Dự án GPT-NL đã chứng minh rằng một cách tiếp cận khác là hoàn toàn khả thi: một cách tiếp cận được xây dựng trên nền tảng quản trị chặt chẽ, minh bạch và cam kết vững chắc đối với các giá trị công cộng.

Saskia Lensink, Quản lý Sản phẩm dự án GPT-NL

Các mô hình ngôn ngữ hiện đại, được tích hợp vào các ứng dụng như ChatGPT, đã cho thấy tiềm năng to lớn của AI trong việc đổi mới, nâng cao năng suất và giải quyết các vấn đề xã hội. Song song với đó, chúng đặt ra những câu hỏi mang tính nền tảng. Ai sẽ quyết định cách thức hoạt động của các mô hình này? Chúng sử dụng dữ liệu nào? Và làm thế nào để chúng ta bảo vệ các giá trị công cộng như quyền riêng tư, bản quyền và tính minh bạch?

Với GPT-NL, TNO (Tổ chức Nghiên cứu Khoa học Ứng dụng Hà Lan) cùng với SURF và Viện Pháp y Hà Lan (NFI) đang xây dựng một mô hình ngôn ngữ và hệ sinh thái độc lập dành cho tiếng Hà Lan. Điều này giúp tăng cường sự tự chủ kỹ thuật số của Hà Lan và Châu Âu, đồng thời cung cấp nền tảng vững chắc cho các ứng dụng AI có trách nhiệm.

Tại sao GPT-NL lại khác biệt?

GPT-NL được xây dựng dựa trên bốn giá trị cốt lõi: Đáng tin cậy, Minh bạch, Có qua có lại và Chủ quyền.

Minh bạch và quản trị trong AI

Chủ quyền: Kiểm soát công nghệ quan trọng

GPT-NL được phát triển hoàn toàn trong phạm vi Hà Lan và Châu Âu. Điều này mang lại quyền kiểm soát hoàn toàn đối với mô hình, dữ liệu và các lựa chọn kỹ thuật. Dự án tránh sự phụ thuộc vào các nhà cung cấp ngoài Châu Âu và đầu tư vào một hệ sinh thái AI bền vững, phù hợp với luật pháp, giá trị và mục tiêu xã hội của khu vực.

Mở và Minh bạch: Sự minh bạch từ nguồn dữ liệu đến mô hình

GPT-NL được xây dựng dựa trên tính minh bạch. Các lựa chọn trong quá trình thu thập dữ liệu và huấn luyện được ghi chép rõ ràng, bao gồm cả cách xử lý các rủi ro như thiên kiến và vấn đề đạo đức. Mã nguồn được công bố dưới dạng mã nguồn mở và thông tin chi tiết về bộ dữ liệu được chia sẻ công khai.

Các trọng số của mô hình (model weights) được cung cấp dưới dạng giấy phép được kiểm soát. Điều này cho phép các nhà phát triển biết ai đang sử dụng mô hình và thông báo cho người dùng về các bản cập nhật hoặc thay đổi, ví dụ như sau khi có yêu cầu loại bỏ dữ liệu.

Đáng tin cậy: Bảo vệ người dùng và công dân

GPT-NL được huấn luyện hoàn toàn từ đầu (từ con số 0), giúp ngăn chặn các rủi ro về nguồn gốc dữ liệu không rõ ràng, vi phạm bản quyền hoặc dữ liệu cá nhân bị thừa hưởng từ các mô hình hiện có.

Để đảm bảo một nền tảng đáng tin cậy, quy trình thu thập dữ liệu của dự án đáp ứng các tiêu chuẩn khắt khe:

Bảo vệ quyền sở hữu trí tuệ.
Loại bỏ và ẩn danh dữ liệu cá nhân trước khi huấn luyện.
Loại bỏ thông tin mật và nội dung gây hại.
Tránh sự trùng lặp trong bộ dữ liệu.

Có qua có lại: Thỏa thuận công bằng về dữ liệu và giá trị

GPT-NL chủ động làm việc với một chuỗi cung ứng dữ liệu sạch và hợp pháp. Dự án hợp tác chặt chẽ với các nhà cung cấp dữ liệu và lôi kéo họ tham gia vào quá trình phát triển mô hình.

Thông qua "Hội đồng Nội dung" (Content Board), các nhà cung cấp dữ liệu và chủ sở hữu quyền lợi có tiếng nói trong tương lai của GPT-NL. Một phần doanh thu sẽ được hoàn trả cho các người sáng tạo. Điều này tạo ra một mô hình đổi mới công bằng hơn, trong đó giá trị được chia sẻ thay vì chỉ đơn thuần được khai thác.

Sử dụng tài nguyên hiệu quả và trách nhiệm giải trình

Phát triển AI đòi hỏi sức mạnh tính toán và năng lượng lớn. Chính vì vậy, GPT-NL tập trung tích cực vào hiệu quả năng lượng và việc sử dụng tài nguyên có trách nhiệm. Dựa trên nghiên cứu khoa học, dự án tối ưu hóa cả kích thước mô hình và quy trình huấn luyện, chú trọng đặc biệt đến mức tiêu thụ năng lượng và nước.

Dự án GPT-NL được tài trợ bởi Cơ quan Doanh nghiệp Hà Lan (RVO) thay mặt Bộ Kinh tế và Chính sách Khí hậu. Tổng cộng 13,5 triệu Euro đã được phân bổ cho dự án này. Đầu tư công này nhấn mạnh tầm quan trọng của một mô hình ngôn ngữ tiếng Hà Lan độc lập, đáng tin cậy và hướng tới tương lai.

GPT-NL là minh chứng cho thấy AI mạnh mẽ và các giá trị công cộng có thể song hành cùng nhau. Cùng nhau, họ đang xây dựng công nghệ giúp Hà Lan mạnh mẽ hơn, tự chủ hơn và công bằng hơn.