ArXiv sẽ cấm đăng bài một năm nếu tác giả để AI làm toàn bộ công việc

ArXiv đang thực hiện các biện pháp mạnh tay hơn để ngăn chặn việc sử dụng mô hình ngôn ngữ lớn (LLM) thiếu trách nhiệm trong các bài báo khoa học. Nếu phát hiện bằng chứng rõ ràng rằng tác giả không kiểm tra kết quả do AI tạo ra, họ sẽ bị cấm đăng bài trong một năm.

ArXiv, một kho lưu trữ mở phổ biến dành cho các bản in trước (preprint) của nghiên cứu khoa học, đang thực hiện các biện pháp mạnh tay hơn để ngăn chặn việc sử dụng các mô hình ngôn ngữ lớn (LLM) một cách tùy tiện trong các bài báo khoa học.

Mặc dù các bài báo được đăng lên trang web này trước khi được thẩm định (peer-review), ArXiv (phát âm là "archive") đã trở thành một trong những kênh chính lưu truyền nghiên cứu trong các lĩnh vực như khoa học máy tính và toán học. Bản thân trang web này cũng trở thành một nguồn dữ liệu quan trọng về các xu hướng nghiên cứu khoa học.

Các biện pháp kiểm soát mới

Trước đó, ArXiv đã thực hiện các bước để chống lại số lượng ngày càng tăng các bài báo chất lượng thấp do AI tạo ra, ví dụ như yêu cầu người đăng bài lần đầu phải được sự bảo chứng của một tác giả uy tín. Sau khi được Đại học Cornell lưu trữ hơn 20 năm, tổ chức này đang trở thành một tổ chức phi lợi nhuận độc lập, điều này sẽ cho phép họ huy động thêm vốn để giải quyết các vấn đề như nội dung rác do AI tạo ra.

Trong động thái mới nhất, Thomas Dietterich — chủ nhiệm bộ phận khoa học máy tính của ArXiv — đã đăng tải thông báo vào thứ Năm rằng: "nếu một bài nộp chứa bằng chứng không thể chối cãi cho thấy các tác giả đã không kiểm tra kết quả do LLM tạo ra, điều này có nghĩa là chúng tôi không thể tin tưởng bất cứ điều gì trong bài báo đó".

Dietterich cho biết bằng chứng không thể chối cãi đó có thể bao gồm các "tài liệu tham khảo ảo" (hallucinated references) và các bình luận gửi đến hoặc từ LLM. Nếu phát hiện bằng chứng như vậy, các tác giả của bài báo sẽ đối mặt với "lệnh cấm trong một năm từ ArXiv, sau đó là yêu cầu rằng các bài nộp tiếp theo trên ArXiv phải được chấp nhận bởi một kênh thẩm định đồng nghiệp uy tín trước".

Trách nhiệm thuộc về tác giả

Cần lưu ý rằng đây không phải là lệnh cấm hoàn toàn việc sử dụng LLM, mà là sự khẳng định rằng, như Dietterich nói, các tác giả phải chịu "trách nhiệm hoàn toàn" về nội dung, "bất kể nội dung đó được tạo ra như thế nào".

"Vì vậy, nếu các nhà nghiên cứu sao chép 'ngôn ngữ không phù hợp, nội dung đạo văn, nội dung thiên kiến, lỗi sai, tài liệu tham khảo sai hoặc nội dung gây hiểu lầm' trực tiếp từ LLM, họ vẫn phải chịu trách nhiệm về điều đó."

Dietterich nói với 404 Media rằng đây sẽ là quy tắc "một lần phạm lỗi là bị phạt", nhưng các điều phối viên phải gắn cờ vấn đề và chủ nhiệm bộ phận phải xác nhận bằng chứng trước khi áp dụng hình phạt. Các tác giả cũng có quyền kháng cáo quyết định này.

Các nghiên cứu được thẩm định gần đây cho thấy việc tạo ra tài liệu tham khảo giả đang gia tăng trong nghiên cứu y sinh, có thể là do LLM — mặc dù công bằng mà nói, các nhà khoa học không phải là những người duy nhất bị phát hiện sử dụng các trích dẫn do AI bịa ra.

ArXiv sẽ cấm đăng bài một năm nếu tác giả để AI làm toàn bộ công việc

Các biện pháp kiểm soát mới

Trách nhiệm thuộc về tác giả

Bài viết liên quan