ArXiv sẽ cấm các nhà nghiên cứu đăng tải những bài viết học thuật chứa "rác AI"

ArXiv đang thắt chặt quy định để chống lại sự gia tăng của các bài viết học thuật chất lượng thấp do AI tạo ra. Các nhà nghiên cứu bị phát hiện để lại bằng chứng rõ ràng như tài liệu tham khảo ảo hay lời nhắc của chatbot sẽ bị cấm đăng bài trong một năm.

ArXiv, kho lưu trữ các bản in trước (preprint) học thuật nổi tiếng dành cho cộng đồng nghiên cứu, đang thực hiện các biện pháp mới nhằm giảm thiểu lượng bài viết chất lượng thấp do AI tạo ra (thường được gọi là AI slop). Theo đó, nếu một bài viết có "bằng chứng không thể chối cãi" cho thấy các tác giả đã không kiểm tra kết quả do mô hình ngôn ngữ lớn (LLM) sinh ra, họ sẽ đối mặt với lệnh cấm từ nền tảng này.

Hình ảnh minh họa về AI và tài liệu nghiên cứu

Thomas Dietterich, Chủ tịch bộ phận Khoa học Máy tính của ArXiv, cho biết các tài khoản vi phạm sẽ bị cấm trong một năm. Hơn nữa, các bài đăng ArXiv trong tương lai của những người này cũng bắt buộc phải đã được chấp nhận tại "một kênh đồng thẩm định danh tiếng" trước khi được nộp lên.

Các dấu hiệu của sự lười biếng khi sử dụng AI

Chính sách này nhắm vào những trường hợp các nhà nghiên cứu dùng AI để viết bài nhưng không rà soát lại kỹ lưỡng. ArXiv định nghĩa "bằng chứng không thể chối cãi" bao gồm những lỗi sai cụ thể như:

Tài liệu tham khảo ảo (hallucinated references): Trích dẫn những bài báo hoặc tác giả không tồn tại do AI bịa ra.
Bình luận meta từ LLM: Để lại những câu thoại hoặc lời nhắc của công cụ AI trong văn bản chính thức. Ví dụ điển hình là: "đây là tóm tắt 200 từ; bạn có muốn tôi thực hiện bất kỳ thay đổi nào không?" hoặc "dữ liệu trong bảng này chỉ mang tính minh họa, hãy điền các con số thực tế từ thí nghiệm của bạn vào".

Trên tài khoản X (tên cũ là Twitter), Dietterich nhấn mạnh rằng quy tắc ứng xử của ArXiv yêu cầu mỗi tác giả phải chịu trách nhiệm hoàn toàn cho nội dung bài viết, bất kể nội dung đó được tạo ra như thế nào.

Nếu các công cụ AI tạo ra ngôn ngữ không phù hợp, nội dung đạo văn, thiên kiến, sai sót hoặc tài liệu tham khảo sai lệch... và những đầu ra đó được đưa vào các công trình khoa học, thì đó là trách nhiệm của các tác giả.

Quy trình xử lý và bối cảnh mở rộng

Dietterich cũng làm rõ với 404Media rằng chính sách này chỉ áp dụng cho "các trường hợp có bằng chứng không thể chối cãi". Quy trình nội bộ của ArXiv yêu cầu một người điều hành (moderator) phải tài liệu hóa vấn đề, sau đó Chủ tịch bộ phận xác nhận trước khi áp dụng hình phạt. Các tác giả vẫn có quyền kháng cáo quyết định cấm.

Việc này không phải là hành động đột ngột của ArXiv. Vào năm ngoái, nền tảng này đã cập nhật chính sách để hạn chế các bài báo tổng hợp (review articles) và bài tuyên bố lập trường (position papers) trong lĩnh vực khoa học máy tính, yêu cầu chúng phải được đồng thẩm định.

Nghiên cứu khoa học và công nghệ

Thời điểm đó, ArXiv nhận định rằng sự xuất hiện của các mô hình ngôn ngữ lớn khiến việc tạo ra loại nội dung này trở nên quá dễ dàng, và phần lớn các bài tổng hợp họ nhận được chỉ là danh mục tài liệu chú giải đơn thuần, thiếu đi sự thảo luận sâu sắc về các vấn đề nghiên cứu mở.

Động thái mới nhất này cho thấy cộng đồng học thuật đang ngày càng quyết liệt hơn trong việc đảm bảo tính toàn vẹn của khoa học trước làn sóng công cụ sinh tạo nội dung tự động.

ArXiv sẽ cấm các nhà nghiên cứu đăng tải những bài viết học thuật chứa "rác AI"

Các dấu hiệu của sự lười biếng khi sử dụng AI

Quy trình xử lý và bối cảnh mở rộng

Bài viết liên quan