Hơn 340 tờ báo địa phương chặn Internet Archive truy cập dữ liệu vì lo ngại AI

Số lượng tờ báo địa phương chặn Internet Archive đang gia tăng mạnh mẽ do lo ngại các công ty AI sẽ sử dụng kho lưu trữ này để huấn luyện mô hình. Hành động này gây ra những lo ngại lớn về việc bảo tồn lịch sử báo chí và khả năng tiếp cận thông tin của các nhà nghiên cứu.

Hơn 340 tờ báo địa phương tại Mỹ đang hạn chế Internet Archive truy cập vào nội dung báo chí của họ. Sự gia tăng này diễn ra sau khi các nhà xuất bản lớn lo ngại rằng các công ty trí tuệ nhân tạo (AI) có thể sử dụng kho lưu trữ phi lợi nhuận này làm nguồn dữ liệu huấn luyện.

Vào tháng 1 năm nay, Nieman Lab đã đưa tin về việc các nhà xuất bản tin tức lớn như The New York Times, The Guardian và USA Today Co. đã bắt đầu chặn Internet Archive. Mặc dù chưa có nhà xuất bản nào xác nhận rằng công ty AI đã thực sự thu thập dữ liệu của họ từ Wayback Machine, nhưng xu hướng chặn truy cập này vẫn tiếp tục lan rộng trong năm tháng qua.

Máy chủ lưu trữ của Internet Archive

Phân tích mới nhất cho thấy hơn 340 trang tin tức địa phương tại Mỹ hiện đang hạn chế khả năng truy cập và lưu trữ câu chuyện của Internet Archive. Nhiều trang web trong mẫu nghiên cứu thuộc sở hữu của năm trong số bảy nhà xuất bản tin tức địa phương lớn nhất nước Mỹ, bao gồm USA Today Co., McClatchy, Advance Local, MediaNews Group và Tribune Publishing.

Tác động đến việc bảo tồn lịch sử

Các nhà nghiên cứu, nhà sử học và công dân trên toàn thế giới phụ thuộc rất nhiều vào các kho lưu trữ web của các trang tin tức địa phương để thực hiện công việc của họ.

Việc chặn các trình thu thập web (web crawler) của Internet Archive đe dọa một trong những cách hiệu quả nhất để chúng ta nắm bắt và lưu trữ nội dung tin tức trong dài hạn. Edward McCain, một thủ thư báo chí tại Đại học Missouri, cho biết: "Trong hiện tại chúng ta có thể có một số giải pháp thay thế, nhưng về lâu dài, nó làm suy yếu một mắt xích quan trọng trong các tài liệu nguồn sơ cấp mà chúng ta cần để hiểu rõ quá khứ và định hướng tương lai."

Máy chủ lưu trữ của Internet Archive

Các nhà báo đang làm việc cũng là những người sử dụng thường xuyên các kho lưu trữ tin tức địa phương của Wayback Machine. B.J. Mendelson, biên tập viên của bản tin The Monroe Gazette, chia sẻ rằng ông làm việc tại một vùng "sa mạc tin tức" và phải phụ thuộc rất nhiều vào dữ liệu lưu trữ từ các phương tiện truyền thông đã ngừng hoạt động. "Nếu không có Internet Archive, công việc của tôi sẽ vô cùng khó khăn," Mendelson viết trong một bản kiến nghị được hơn 200 nhà báo ký tên.

Xung đột giữa AI và quyền sở hữu trí tuệ

Meredith Broussard, nhà báo dữ liệu và giáo sư tại Đại học New York, nhận định rằng khi biên lợi nhuận từ tin tức giảm sút, việc bảo vệ sở hữu trí tuệ trở nên quan trọng hơn đối với các nhà xuất bản.

"Đây là cuộc chiến mà mọi người đã từng đấu tranh với Internet Archive kể từ khi thành lập," Broussard nói. "Internet Archive là một tổ chức theo trường phái cũ, cho rằng 'thông tin nên được tự do'. Nhưng những người có vốn đầu tư khác nhau sẽ có những ưu tiên khác nhau. Có rất nhiều vấn đề lịch sử, pháp lý và kinh tế đang va chạm trong tình huống này. Các công ty AI chính là chất xúc tác cho cuộc xung đột mới nhất trong một trận chiến lâu đời."

Về mặt kỹ thuật, các nhà xuất bản đang sử dụng tệp robots.txt để chặn các bot của Internet Archive như Heritrix, archive.org_bot và ia_archiver. Đến tháng 5, số lượng trang web chặn ít nhất một bot liên quan đến Internet Archive đã tăng lên 382, trong đó 342 trang là tin tức địa phương.

Chiến lược của các nhà xuất bản

Advance Local, công ty con của Advance Publications, đã xác nhận họ bắt đầu chặn hoàn toàn Internet Archive từ tháng 8 năm ngoái. Họ gọi đây là một phần của nỗ lực rộng lớn hơn để bảo vệ giá trị công việc đã xuất bản khỏi việc sử dụng bất chính bởi bên thứ ba.

Trong khi đó, The Baltimore Banner lại có cách tiếp cận khác. Họ chặn Internet Archive nhưng vẫn cho phép các bot của các công ty AI lớn như ChatGPT và Claude truy cập. Biswajit Ganguly, Giám đốc công nghệ của The Banner, giải thích rằng họ muốn đảm bảo các sản phẩm AI truy nguyên thông tin về lại The Banner thay vì liên kết đến các trang tổng hợp.

"Chúng tôi không muốn bot được huấn luyện trên nội dung của chúng tôi và sau đó đưa ra câu trả lời mà không có bất kỳ tài liệu tham khảo, liên kết hoặc ghi nhận nguồn nào," Ganguly nói.

The Atlantic cũng đang làm việc với Cloudflare để chặn Internet Archive như một phần của chính sách chặn "quyết liệt". CEO Nick Thompson của The Atlantic cho biết việc chặn Internet Archive rất quan trọng để duy trì vị thế đàm phán khi cấp phép cho các công ty AI lớn.

"Vì thiệt hại có thể xảy ra khi bạn để tất cả nội dung của mình bị thu thập, và vì đòn bẩy bạn mất đi, sẽ có những sản phẩm xứng đáng mà trước đây bạn đã cung cấp dữ liệu nhưng giờ thì không thể nữa," Thompson nhận định.

Tương lai của việc lưu trữ kỹ thuật số

Việc lưu trữ tốn kém rất nhiều chi phí về cơ sở hạ tầng, lưu trữ và chuyên môn, điều này trở nên khó khăn đối với các tổ chức tin tức nhỏ hơn. Khi chuyển sang xuất bản kỹ thuật số, việc thay đổi hệ thống quản lý nội dung (CMS) thường dẫn đến mất mát dữ liệu lưu trữ lớn.

Internet Archive thường được ca ngợi như một người hùng của web khi nhận nhiệm vụ bảo tồn toàn bộ internet. Tuy nhiên, xung đột hiện nay đặt ra câu hỏi khó về việc cân bằng giữa việc bảo tồn lịch sử kỹ thuật số và bảo vệ quyền lợi kinh tế trong kỷ nguyên AI.

Máy chủ lưu trữ của Internet Archive

Broussard cảnh báo rằng mọi tổ chức tin tức thường nghĩ rằng khi đưa nội dung lên internet, nó sẽ ở đó mãi mãi, nhưng điều đó không đúng. "Bất cứ ai nói với bạn rằng internet là mãi mãi đều đang nói dối," bà kết luận.

Hơn 340 tờ báo địa phương chặn Internet Archive truy cập dữ liệu vì lo ngại AI

Tác động đến việc bảo tồn lịch sử

Xung đột giữa AI và quyền sở hữu trí tuệ

Chiến lược của các nhà xuất bản

Tương lai của việc lưu trữ kỹ thuật số

Bài viết liên quan