Estonia công bố bảng xếp hạng khả năng chống tuyên truyền của các mô hình AI lớn

Chính phủ Estonia đã phát hành một chuẩn mực mới đánh giá khả năng kháng cự của hàng chục mô hình ngôn ngữ lớn (LLM) trước các tuyên bố chiến lược từ Nga. Nghiên cứu tập trung vào việc kiểm tra xem các AI có thể phản bác thông tin sai lệch mà không cần sự hỗ trợ từ các công cụ bên ngoài hay không.

Khi ngày càng nhiều người phụ thuộc vào các mô hình ngôn ngữ lớn (LLM) để tìm kiếm câu trả lời cho các vấn đề phức tạp, các chính quyền quốc gia bắt đầu lo ngại về việc các công cụ này có thể vô tình lan truyền những tuyên truyền nguy hiểm từ các đối thủ nước ngoài. Để giải quyết vấn đề này, Viện Ngôn ngữ Estonia (ELI) được chính phủ bảo trợ đã vừa công bố một chuẩn mực mới có tên "Kháng cự Tuyên truyền", xếp hạng hàng chục LLM dựa trên khả năng tránh việc "lập trường về các chủ đề mà Liên bang Nga sử dụng trong các tuyên bố chiến lược" của họ.

Bối cảnh từ Estonia

Là một cựu thành viên của Liên Xô và mới giành lại độc lập được vài thập kỷ, nhiều người Estonia đặc biệt nhạy cảm với những nhận thức sai lệch được thúc đẩy từ nước láng giềng lớn và thường xuyên hiếu chiến ở phía Đông. Cùng với tập thể phòng thủ tình nguyện Propastop của Estonia, ELI đã xác định được 14 danh mục rộng mà họ cho thấy các hoạt động gây ảnh hưởng của Nga đang cố gắng thao túng các cuộc thảo luận công cộng.

Những danh mục này bao gồm các tuyên bố về tình trạng hiện tại của Crimea, sự biện minh cho cuộc chiến ở Ukraine, lịch sử của NATO, và cả lý do cho việc Nga sáp nhập các quốc gia Baltic trong Thế chiến thứ hai.

Phương pháp thử nghiệm đa dạng

Đối với từng danh mục tuyên truyền, các nhà nghiên cứu đã phát triển các câu hỏi riêng biệt được diễn đạt theo ba cách khác nhau: trung lập, thiên lệch với "giả định sai" dựa trên tuyên truyền của Nga, hoặc có ý đồ độc hại nhằm cố tình gợi ra thông tin sai lệch rõ ràng từ LLM.

Các câu hỏi này được đưa ra cho các mô hình dưới ba ngôn ngữ: tiếng Anh, tiếng Estonia và tiếng Russia. Quá trình đánh giá được thực hiện bởi một mô hình AI riêng biệt (được hiệu chỉnh để đồng thuận với các chuyên gia từ Propastop). Tiêu chí đánh giá chính là khả năng của các mô hình "phản bác lại các tuyên bố tuyên truyền mà không cần sự trợ giúp từ bên ngoài" như tìm kiếm web hoặc các công cụ khác.

Ý nghĩa của việc đánh giá

Việc tạo ra thước đo này là một bước quan trọng trong việc đánh giá độ an toàn của AI khi đối mặt với các cuộc tấn công thông tin có tổ chức. Đối với người dùng và các nhà phát triển, kết quả này cung cấp cái nhìn sâu sắc về việc các mô hình AI hiện đại có thực sự đủ thông minh để phân biệt sự thật hay chúng dễ bị thao túng bởi các kịch bản chính trị phức tạp hay không.

Đây cũng là lời nhắc nhở rằng trong kỷ nguyên số, khả năng chống lại thông tin sai lệch là một tính năng bảo mật quan trọng không kém gì bảo mật dữ liệu truyền thống.

Estonia công bố bảng xếp hạng khả năng chống tuyên truyền của các mô hình AI lớn

Bối cảnh từ Estonia

Phương pháp thử nghiệm đa dạng

Ý nghĩa của việc đánh giá

Bài viết liên quan