Thư viện Quốc gia Na Uy xây dựng LLM chủ quyền với sự hỗ trợ của 2 PB bộ nhớ flash Huawei

Thư viện Quốc gia Na Uy đang phát triển một mô hình ngôn ngữ lớn (LLM) chuyên biệt cho tiếng Na Uy, sử dụng hệ thống lưu trữ flash Huawei OceanStor Dorado dung lượng 2 PB. Dự án nhằm giải quyết vấn đề các mô hình AI toàn cầu thường bỏ qua các khía cạnh văn hóa và lịch sử của các quốc gia không nói tiếng Anh.

Tại diễn đàn Huawei ID Forum 2026 diễn ra ở Paris, ông Marius Husnes, Trưởng bộ phận Nền tảng CNTT của Thư viện Quốc gia Na Uy (Nasjonallbiblioteket), đã chia sẻ chi tiết về dự án đầy tham vọng của quốc gia này. Mục tiêu của họ là xây dựng một mô hình ngôn ngữ lớn (LLM) có khả năng hiểu sâu sắc tiếng Na Uy, sử dụng 2 PB bộ nhớ flash Huawei OceanStor Dorado trong quy trình xử lý dữ liệu huấn luyện AI.

Marius Husnes trình bày về dự án LLM của Na Uy

Tại sao Na Uy cần một LLM chủ quyền?

Ông Husnes nhấn mạnh rằng không có nhà cung cấp LLM thương mại nào đang phát triển mô hình ngôn ngữ dành riêng cho tiếng Na Uy. Ông lập luận rằng bất kỳ quốc gia nào sở hữu ngôn ngữ riêng nhưng không có một LLM chủ quyền được huấn luyện trên ngôn ngữ đó sẽ gặp bất lợi lớn. Các mô hình AI toàn cầu, vốn thiên về tiếng Anh, thường thiếu hiểu biết về lịch sử, tin tức và văn hóa được mô tả bằng ngôn ngữ địa phương của các quốc gia này.

Hệ thống lưu trữ và quy trình AI

Bộ Văn hóa Na Uy đã giao nhiệm vụ này cho Thư viện Quốc gia, nơi sở hữu bộ sưu tập kỹ thuật số lớn nhất về sách, báo chí và trang web của đất nước. Như nhiều thư viện nhà nước khác, cơ quan này có quyền nhận bản sao của mọi cuốn sách được xuất bản và nội dung phát sóng. Nghĩa vụ lưu trữ pháp lý của họ mở rộng ra ngoài sách vở, bao gồm việc thu thập và bảo tồn toàn bộ di sản văn hóa kỹ thuật số của Na Uy.

Vấn đề về dữ liệu và hạ tầng lưu trữ

Thư viện đã ký thỏa thuận với các tờ báo Na Uy cho phép sử dụng nội dung có bản quyền để huấn luyện LLM. Theo ông Husnes: "Không có công ty tư nhân nào có được điều này."

Thư viện bắt đầu số hóa bộ sưu tập từ năm 2005 và đã tích lũy được 20 PB dữ liệu độc nhất, được lưu trữ theo nguyên tắc 3-2-1 (3 bản sao, 2 loại phương tiện, 1 ngoại vi), tổng cộng lên tới 60 PB. Quy trình số hóa bao gồm quét OCR (nhận dạng ký tự quang học) trên văn bản thô, âm thanh, hình ảnh động, hình ảnh tĩnh và nội dung web, tạo ra một lượng lớn siêu dữ liệu và các API để truy cập trực tuyến.

Thách thức lớn nhất mà ông Husnes và đội ngũ phải đối mặt không phải là sức mạnh tính toán, mà là chất lượng dữ liệu và thông lượng của đường ống xử lý (pipeline).

Vai trò của Huawei và Siêu máy tính

Để giải quyết vấn đề thông lượng dữ liệu, đội ngũ đã triển khai hệ thống lưu trữ all-flash Huawei OceanStor Dorado với tổng dung lượng 2 PB. Đây là hệ thống lưu trữ độ trễ thấp (low-latency) dành cho các đường ống dữ liệu và công tác chuẩn bị huấn luyện.

Quy trình xử lý bao gồm các bước: thu nạp dữ liệu, làm sạch, khử trùng, chuẩn hóa định dạng, xác thực và chuẩn bị. Sau khi dữ liệu vượt qua quy trình này, chúng sẽ được chuyển đến siêu máy tính quốc gia của Na Uy, hệ thống Sigma2 Olivia, để thực hiện các lần chạy huấn luyện thực tế.

Hệ thống Sigma2 Olivia là một siêu máy tính HPE Cray EX với 448 GPU và 64.512 lõi CPU, sử dụng hệ thống lưu trữ Cray ClusterStor E1000 dung lượng 5,3 PB.

Thách thức trong việc chuyển đổi dữ liệu

Một vấn đề lớn là sự khác biệt về nhu cầu giữa hai hệ thống lưu trữ. Hệ thống lưu trữ bảo tồn 60 PB được tối ưu hóa cho độ bền và chi phí, không phải cho tốc độ IO nhanh, và có độ trễ đọc cao vì được thiết kế cho việc truy cập không thường xuyên. Ngược lại, bộ nhớ lưu trữ trong đường ống AI được thiết kế cho IO dữ liệu song song, thông lượng cao và độ trễ thấp.

Ông Husnes chia sẻ rằng ông nhận ra rất ít người thảo luận về các vấn đề liên quan đến việc chuyển đổi tập dữ liệu quy mô PB từ kho lưu trữ sang hệ thống đường ống AI. Đội ngũ của ông đã phải tự mình tìm cách giải quyết vấn đề này.

Bài học cho các quốc gia không nói tiếng Anh

Dự án hiện vẫn đang được tiếp tục. Ông Husnes kết thúc bài thuyết trình của mình bằng cách tóm tắt những gì đội ngũ đang học hỏi:

Đánh giá (Evaluation): Hiện không có công cụ đánh giá tiêu chuẩn nào cho một LLM chủ quyền tiếng Na Uy. Ngôn ngữ này có hai dạng viết, nhiều phương ngữ và biến đổi lịch sử. Họ đang xây dựng công cụ đánh giá của riêng mình.
Quản trị (Governance): Ai kiểm soát quyền truy cập vào một LLM chủ quyền? Ai quyết định nó có thể được sử dụng cho việc gì? Đây là những câu hỏi thể chế và chính trị không có câu trả lời dễ dàng.
Điều phối (Orchestration): Việc khiến ba hệ thống—kho lưu trữ bảo tồn, môi trường AI tại chỗ và siêu máy tính quốc gia Sigma2—hoạt động trơn tru với nhau là một dự án đang diễn ra.

Câu chuyện của Na Uy là một bài học quan trọng: Huawei đang đóng vai trò nghiêm túc và đáng kể tại thị trường châu Âu. Và quan trọng hơn, bất kỳ quốc gia nào phát triển LLM chủ quyền ngôn ngữ bản địa đều nên tham khảo kinh nghiệm của ông Husnes. Như ông đã nói: Na Uy là một quốc gia nhỏ đang giải quyết một vấn đề mà mọi quốc gia không nói tiếng Anh sẽ phải đối mặt: Làm thế nào để xây dựng AI phản ánh đúng ngôn ngữ, văn hóa và lịch sử của chính mình? AI cần những người giám hộ, không chỉ là những người xây dựng.

Thư viện Quốc gia Na Uy xây dựng LLM chủ quyền với sự hỗ trợ của 2 PB bộ nhớ flash Huawei

Tại sao Na Uy cần một LLM chủ quyền?

Vấn đề về dữ liệu và hạ tầng lưu trữ

Vai trò của Huawei và Siêu máy tính

Thách thức trong việc chuyển đổi dữ liệu

Bài học cho các quốc gia không nói tiếng Anh

Bài viết liên quan