Meta bị các nhà xuất bản lớn kiện vì cáo buộc vi phạm bản quyền khi huấn luyện AI

Meta đang đối mặt với vụ kiện tập thể từ các nhà xuất bản sách lớn và một tác giả, cáo buộc công ty này đã vi phạm bản quyền quy mô lớn khi huấn luyện mô hình AI Llama. Nguyên đơn cho rằng Meta đã sử dụng trái phép hàng loạt sách và bài báo từ các trang web lậu để đào tạo trí tuệ nhân tạo. Meta khẳng định việc sử dụng dữ liệu này thuộc quyền sử dụng hợp lý và sẽ đấu tranh pháp lý mạnh mẽ.

Meta đang đối mặt với một vụ kiện tập thể được đệ trình bởi năm nhà xuất bản sách lớn và một tác giả, với cáo buộc công ty này đã "tham gia vào một trong những hành vi vi phạm bản quyền quy mô lớn nhất trong lịch sử" khi phát triển các mô hình AI Llama của mình.

Theo báo cáo từ The New York Times, các đơn vị bao gồm Macmillan, McGraw-Hill, Elsevier, Hachette, Cengage cùng tác giả Scott Turow đã lập luận rằng Meta đã "sao chép lặp đi lặp lại" các sách và bài báo tạp chí của họ mà không xin phép.

Meta đối mặt với vụ kiện bản quyền

Cáo buộc sử dụng dữ liệu từ trang web lậu

Vụ kiện cáo buộc Meta đã cố tình lấy các tác phẩm có bản quyền từ "các trang web nổi tiếng về vi phạm bản quyền" như LibGen, Anna’s Archive, Sci-Hub và Sci-Mag, sau đó đưa dữ liệu đó vào mô hình AI của mình. Ngoài ra, đơn kiện cũng tuyên bố rằng Meta đã huấn luyện Llama bằng cách sử dụng thông tin từ bộ dữ liệu Common Crawl, bộ dữ liệu này bị cho là "đầy ắp các bản sao trái phép của các tác phẩm có bản quyền".

Kết quả là, Llama allegedly "đưa ra các kết quả thay thế nguyên văn hoặc gần nguyên văn" cho tài liệu có bản quyền. Ví dụ, khi được đưa ra hai câu ngắn từ sách giáo khoa bán chạy nhất của Cengage, Calculus: Early Transcendentals, ấn bản thứ 9 của James Stewart, Llama đã bắt đầu sao chép nguyên văn phần tiếp theo của cuốn sách.

Bối cảnh pháp lý và các vụ kiện trước đó

Trước đây, đã có một số tác giả kiện Meta vì cáo buộc vi phạm bản quyền, làm lộ các cuộc thảo luận nội bộ của công ty về cách xử lý "phản hồi truyền thông gợi ý rằng chúng ta đã sử dụng bộ dữ liệu mà chúng ta biết là bị đánh cắp". Vào năm ngoái, một thẩm phán liên bang đã phán quyết có lợi cho Meta trong một trong các vụ kiện này, tuy nhiên ông cũng lưu ý rằng phán quyết đó "không đại diện cho quan điểm cho rằng việc sử dụng tài liệu có bản quyền của Meta để huấn luyện các mô hình ngôn ngữ là hợp pháp".

Một nhóm tác giả cũng đã kiện Anthropic vì vi phạm bản quyền. Mặc dù một thẩm phán liên bang đã phán quyết rằng việc huấn luyện các mô hình AI trên các sách được mua hợp pháp mà không xin phép được coi là sử dụng hợp lý (fair use), ông đã cho phép các tác giả tiếp tục vụ kiện tập thể đối với "hàng triệu" tác phẩm mà Anthropic bị cáo buộc là đã đánh cắp. Anthropic đã đồng ý trả cho các nhà văn 1,5 tỷ USD vào năm ngoái để dàn xếp vụ kiện tập thể đó.

Yêu cầu và phản hồi từ các bên

Turow và nhóm các nhà xuất bản đang kiện Meta để đòi bồi thường thiệt hại, đồng thời yêu cầu tòa án ra lệnh cho công ty chặn các hoạt động bị cáo buộc là bất hợp pháp. Họ cũng yêu cầu tòa án buộc Meta phải cung cấp danh sách các sách, bài báo tạp chí và các tác phẩm có bản quyền khác mà công ty đã sử dụng để huấn luyện các mô hình AI Llama.

"AI đang thúc đẩy những đổi mới mang tính chuyển đổi, năng suất và sự sáng tạo cho các cá nhân và công ty, và các tòa án đã đúng khi nhận thấy rằng việc huấn luyện AI trên tài liệu có bản quyền có thể đủ điều kiện là sử dụng hợp lý," phát ngôn viên của Meta, Dave Arnold, cho biết trong một tuyên bố gửi qua email cho The Verge. "Chúng tôi sẽ đấu tranh mạnh mẽ với vụ kiện này."

Vụ án này tiếp tục làm nổi bật những căng thẳng pháp lý ngày càng tăng giữa ngành công nghiệp AI và các nhà sáng tạo nội dung, đặt ra câu hỏi lớn về ranh giới giữa việc sử dụng hợp lý và vi phạm bản quyền trong kỷ nguyên số.

Meta bị các nhà xuất bản lớn kiện vì cáo buộc vi phạm bản quyền khi huấn luyện AI

Cáo buộc sử dụng dữ liệu từ trang web lậu

Bối cảnh pháp lý và các vụ kiện trước đó

Yêu cầu và phản hồi từ các bên

Bài viết liên quan