Mô hình LLM "Rio" của Rio de Janeiro bị tố cáo là bản trộn lẫn từ các mã nguồn mở khác

Nex-AGI đã đưa ra bằng chứng cho thấy mô hình ngôn ngữ lớn được giới thiệu là do chính phủ Rio de Janeiro phát triển thực chất chỉ là sự kết hợp tuyến tính giữa mô hình Nex của họ và Qwen của Alibaba. Không có dấu hiệu cho thấy quá trình huấn luyện độc lập nào đã diễn ra, gây ra tranh cãi lớn về tính minh bạch trong AI.

Nex-AGI đã đưa ra bằng chứng cho thấy mô hình ngôn ngữ lớn (LLM) được giới thiệu là do chính phủ Rio de Janeiro phát triển thực chất chỉ là sự kết hợp tuyến tính giữa mô hình Nex của họ và Qwen của Alibaba. Không có dấu hiệu cho thấy quá trình huấn luyện độc lập nào đã diễn ra, gây ra tranh cãi lớn về tính minh bạch trong AI.

Tranh cãi về nguồn gốc của Rio-3.5-Open-397B

Vấn đề bắt đầu khi cơ quan IplanRIO của Rio de Janeiro công bố mô hình Rio-3.5-Open-397B, được quảng bá là một mô hình 397 tỷ tham số do chính họ huấn luyện. Tuy nhiên, nhóm phát triển Nex-AGI đã đăng tải một vấn đề (issue) trên GitHub để phản bác mạnh mẽ tuyên bố này.

Theo Nex-AGI, mô hình Rio thực chất không phải là kết quả của quá trình huấn luyện từ đầu (training from scratch) hay tinh chỉnh (fine-tuning) độc lập. Thay vào đó, nó là một bản hợp nhất trọng số (weight merge) đơn giản giữa hai mô hình có sẵn: Nex-N2_pro của họ và Qwen3.5-397B-A17B của Alibaba. Cụ thể, tỷ lệ trộn lẫn được xác định là khoảng 0.6 Nex và 0.4 Qwen.

Bằng chứng kỹ thuật

Để chứng minh cho nhận định này, Nex-AGI đã đưa ra hai phương pháp kiểm chứng độc lập hoàn toàn với nhau.

Thứ nhất là kiểm tra hành vi. Khi loại bỏ system prompt (lời nhắc hệ thống) được mã hóa cứng trong mô hình Rio với nội dung "You are Rio", chính mô hình này khi được hỏi đã tự nhận diện mình là "Nex, from Nex-AGI" trong 79% các trường hợp. Đáng chú ý, nó không bao giờ tự nhận là "Rio" và thậm chí còn có thể thuộc lòng câu chuyện nền (backstory) độc quyền của tổ chức Nex-AGI.

Thứ hai là phân tích toán học. Mọi trọng số (weight tensor) trong mô hình Rio, qua hàng nghìn độ lệch chuẩn, đều khớp chính xác với công thức kết hợp 0.6 Nex và 0.4 Qwen. Sự tương đồng này diễn ra nhất quán trên tất cả 60 lớp và mọi thành phần của mạng nơ-ron. Các bản tinh chỉnh (finetunes) thông thường không thể tạo ra sự nội suy (interpolation) hoàn hảo như vậy.

Hệ quả đối với cộng đồng AI

Vụ việc này đặt ra câu hỏi lớn về tính minh bạch và đạo đức trong việc phát triển AI, đặc biệt là khi các tổ chức chính phủ hoặc công nghệ tuyên bố tạo ra các sản phẩm "sản xuất tại nhà" (homegrown) nhưng thực chất lại dựa dẫm quá nhiều vào công nghệ của cộng đồng mã nguồn mở mà không ghi nhận công lao phù hợp.

Việc sử dụng kỹ thuật hợp nhất mô hình (model merging) không phải là điều xấu, nhưng việc che giấu nguồn gốc và nhận công lao cho sự sáng tạo của người khác là một vấn đề nghiêm trọng trong giới công nghệ hiện nay.

Mô hình LLM "Rio" của Rio de Janeiro bị tố cáo là bản trộn lẫn từ các mã nguồn mở khác

Tranh cãi về nguồn gốc của Rio-3.5-Open-397B

Bằng chứng kỹ thuật

Hệ quả đối với cộng đồng AI

Bài viết liên quan