Databricks chưa thể gỡ bỏ cáo buộc vi phạm bản quyền, đối mặt mức bồi thường "khủng khiếp"

29 tháng 4, 2026·4 phút đọc

Các tác giả sách cáo buộc Databricks đã sử dụng dữ liệu có bản quyền của họ để huấn luyện mô hình ngôn ngữ lớn (LLM). Thẩm phán đã từ chối yêu cầu hủy bỏ vụ kiện của Databricks, yêu cầu làm rõ thêm về quá trình phát triển mô hình DBRX.

Databricks chưa thể gỡ bỏ cáo buộc vi phạm bản quyền, đối mặt mức bồi thường "khủng khiếp"

Databricks chưa thể gỡ bỏ cáo buộc vi phạm bản quyền, đối mặt mức bồi thường "khủng khiếp"

Nền tảng phân tích dữ liệu Databricks đang phải đối mặt với một vụ kiện tập thể dai dẳng liên quan đến mô hình ngôn ngữ lớn (LLM) của mình. Một nhóm tác giả, bao gồm cả những người viết sách bán chạy nhất và một ứng cử viên giải Pulitzer, cáo buộc rằng Databricks đã sử dụng một cơ sở dữ liệu chứa các bản sao trái phép của khoảng 196.000 đầu sách có bản quyền để phát triển sản phẩm.

Tuần trước, Thẩm phán Charles Breyer tại Tòa án Quận Hoa Kỳ ở Bắc California đã từ chối đơn yêu cầu hủy bỏ vụ kiện của Databricks. Quyết định này cho thấy nguyên đơn có đủ cơ sở pháp lý để tiếp tục theo đuổi vụ kiện chống lại nền tảng dữ liệu này.

Trọng tâm của vụ việc là mô hình DBRX của Databricks, được phát triển dựa trên các thành phần từ MosaicLM – công ty mà Databricks mua lại vào năm 2023. Các phiên bản đầu tiên của mô hình này đã sử dụng một tập dữ liệu gọi là RedPajama. Tập dữ liệu này bao gồm Books3, một bộ sưu tập đã bị gỡ bỏ khỏi Hugging Face do vi phạm bản quyền.

Databricks lập luận rằng các tác giả không thể chứng minh DBRX được huấn luyện bằng dữ liệu từ Books3. Tuy nhiên, Thẩm phán Breyer cho rằng các tuyên bố của nhân viên Databricks và mối liên hệ giữa các bước phát triển mô hình MPT trước đó và DBRX là đủ để duy trì vụ kiện.

"Nguyên đơn đã liên kết trực tiếp các tác phẩm bị vi phạm với DBRX, và các tuyên bố của nhân viên cung cấp sự suy luận hỗ trợ khi đọc trong ngữ cảnh đó", Thẩm phán Breyer viết trong phán quyết của mình.

Mức rủi ro tài chính đối với Databricks là cực kỳ lớn. Brandon Butler, một luật sư bản quyền và giám đốc điều hành của liên minh Re:Create, nhận định rằng các điều khoản về bồi thường trong luật bản quyền là "hà khắc với chữ H viết hoa".

"Các khoản bồi thường này là phi thường. Chúng lên tới sáu con số cho mỗi tác phẩm bị vi phạm, tối đa là 150.000 USD", Butler nói. "Đây là một vụ kiện đánh cược toàn bộ sự tồn vong của công ty. Nếu thua, số tiền bồi thường có thể đủ để thanh lý mọi tài sản thuộc sở hữu của các công ty này, đặc biệt là một người chơi nhỏ hơn như Databricks".

Hiện tại, vụ kiện đã thu hút sự tham gia của nhiều tác giả nổi tiếng như Jason Reynolds, Stuart O’Nan, Brian Keene và Rebecca Makkai.

Đáng chú ý, Meta và Anthropic trước đây đã thắng trong các vụ kiện tương tự từ các tác giả sách bằng cách lập luận rằng hành động của họ được bao phủ bởi các quy định về "sử dụng hợp lý" (fair use) của luật bản quyền. Tuy nhiên, Databricks chưa yet sử dụng lập luận này.

Thay vào đó, các luật sư của Databricks cho rằng khiếu nại của các tác giả là "vô lý" và bao gồm các hành động diễn ra trước khi huấn luyện DBRX. Họ so sánh trường hợp này với một công ty ô tô thử nghiệm công nghệ khí thải có và không có một thành phần được cấp bằng sáng chế, sau đó sản xuất một chiếc xe không có thành phần đó.

Các tác giả phản bác rằng Databricks đã sao chép Books3 nhiều lần trong quá trình phát triển DBRX và do đó đã trực tiếp xâm phạm bản quyền của họ. Theo quan điểm của nguyên đơn, miễn là công ty AI không đưa sách có bản quyền vào tập dữ liệu huấn luyện cuối cùng, họ vẫn tự do tải xuống, lưu trữ, sao chép và sử dụng các tác phẩm lậu vì lợi ích của mình – một lập luận mà các tác giả cho là hoàn toàn sai lầm.

Các chuyên gia pháp lý cho rằng Databricks có thể sẽ chuyển sang lập luận "sử dụng hợp lý" hoặc chứng minh rằng việc sử dụng dữ liệu lậu trong quá trình thử nghiệm không gây thiệt hại thực tế và không ảnh hưởng đến mô hình cuối cùng. Tuy nhiên, cho đến nay, họ vẫn chưa chứng minh được điều này trước tòa án.

Bài viết được tổng hợp và biên soạn bằng AI từ các nguồn tin tức công nghệ. Nội dung mang tính tham khảo. Xem bài gốc ↗