Wayback Machine đối mặt nguy cơ bị cô lập khi các ông lớn truyền thông chặn truy cập

Các trang tin tức lớn như USA Today và New York Times đang chặn robot của Internet Archive, đe dọa khả năng lưu giữ lịch sử số của công cụ này. Quyết định này xuất phát từ lo ngại dữ liệu lưu trữ bị các công ty AI sử dụng trái phép để huấn luyện mô hình. Dù vậy, cộng đồng nhà báo đang tích cực vận động để bảo vệ vai trò thiết yếu của Wayback Machine đối với báo chí và công lý.

Tháng này, USA Today đã công bố một báo cáo xuất sắc, tiết lộ cách Cục Thực thi và Di trú Hoa Kỳ (ICE) trì hoãn việc công bố thông tin quan trọng về tác động của các chính sách giam giữ. Để thực hiện điều này, các tác giả đã sử dụng Wayback Machine của Internet Archive để biên soạn và phân tích số liệu giam giữ từ ICE, cũng như theo dõi sự thay đổi của cơ quan này dưới thời chính quyền Trump.

Đây là một trong vô số ví dụ cho thấy Wayback Machine — công cụ thu thập và lưu trữ các trang web — đã giúp gìn giữ thông tin vì lợi ích công cộng. Tuy nhiên, Mark Graham, giám đốc Wayback Machine, nhận định tình huống này có một chút "mỉa mai". Tập đoàn USA Today (trước đây là Gannett), đơn vị sở hữu tờ báo cùng tên và hơn 200 cơ quan truyền thông khác, lại đang chặn không cho Wayback Machine lưu trữ các bài viết của chính mình.

"Họ có thể hoàn thành bài báo nhờ Wayback Machine tồn tại, nhưng đồng thời họ lại chặn quyền truy cập," Graham chia sẻ.

Xu hướng chặn truy cập vì lo ngại AI

Không chỉ USA Today, nhiều tổ chức báo chí lớn khác cũng gần đây đã hạn chế Wayback Machine lưu trữ bài viết của họ, bao gồm cả The New York Times. Theo phân tích của startup phát hiện AI Originality AI, hiện có 23 trang tin tức lớn đang chặn ia_archiverbot, trình thu thập dữ liệu (web crawler) mà Internet Archive sử dụng cho dự án Wayback. Nền tảng xã hội Reddit cũng đang làm điều tương tự. Một số đơn vị khác như The Guardian thì không chặn trình thu thập dữ liệu, nhưng loại bỏ nội dung của họ khỏi API của Internet Archive và lọc bài viết khỏi giao diện Wayback Machine, khiến người dùng khó tiếp cận các phiên bản lưu trữ hơn.

Lark-Marie Anton, người phát ngôn của USA Today, nhấn mạnh rằng nỗ lực này "không nhằm cụ thể vào việc chặn Internet Archive", mà là một phần của nỗ lực rộng rãi hơn nhằm chặn tất cả các bot quét dữ liệu. Trong khi đó, Robert Hahn, giám đốc thương mại và cấp phép của The Guardian, cho biết họ đã trao đổi với Internet Archive về "lo ngại việc các công ty AI có thể lạm dụng các bộ dữ liệu được thu thập cho mục đích lưu trữ".

Sự phản đối của cộng đồng nhà báo

Trước xu hướng này, các phóng viên cá nhân đang đứng lên phản đối. Tuần này, các tổ chức vận động bao gồm Electronic Frontier Foundation (EFF) và Fight for the Future đã kêu gọi các nhà báo ủng hộ sứ mệnh của Wayback Machine. Liên minh đã thu thập hơn 100 chữ ký từ các nhà báo đang làm việc, công nhận giá trị của công cụ này và gửi một lá thư ủng hộ đến Internet Archive. Trong số những người ký tên có gương mặt truyền hình lâu năm Rachel Maddow, các phóng viên độc lập như Kat Tenbarge (Spitfire News) và Taylor Lorenz (User Mag).

"Trong các thế hệ trước, các nhà báo sẽ tìm đến kho lưu trữ vật lý của tờ báo địa phương hoặc thư viện công cộng để tiếp cận các bài báo lịch sử và theo dõi các mối liên kết từ hiện tại quay về quá khứ," bức thư viết. "Khi nhiều tờ báo đóng cửa và không có con đường rõ ràng để các thư viện công cộng bảo tồn các bài báo chỉ xuất bản trực tuyến, công việc bảo vệ hồ sơ báo chí ngày càng phụ thuộc vào Internet Archive."

Laura Flynn, người ký tên và là nhà sản xuất podcast giám sát tại The Intercept, cho biết Internet Archive一直是 một "công cụ thiết yếu" trong suốt sự nghiệp của bà, đóng vai trò quan trọng trong việc kiểm chứng sự thật và tìm kiếm các đoạn âm thanh. Một người ký tên khác, Micco Caporale của Chicago Reader, chia sẻ rằng Wayback Machine giúp ích rất nhiều khi viết về các ban nhạc cũ và các nhân vật văn hóa thông qua việc tiếp cận các trang web hâm mộ đã bị lãng quên.

Caporale cũng cho biết công cụ này hữu ích trong công tác tổ chức công đoàn. "Tôi cũng sử dụng Wayback Machine rất nhiều trong công việc tổ chức công đoàn để tìm các tin tuyển dụng cũ, từ đó biết công ty tuyển dụng nhân sự với mục đích gì so với nhiệm vụ thực tế họ giao, hoặc xem các vị trí khác nhau đã được thay đổi như thế nào theo thời gian," Caporale nói. "Những bài đăng này cũng giúp chúng tôi theo dõi sự biến động về mức lương trong tổ chức."

Cuộc chiến bản quyền và dữ liệu huấn luyện AI

Các nhà xuất bản khác biện minh cho việc chặn Wayback Machine bằng cách chỉ ra lo ngại về cách các công ty công nghệ sử dụng dữ liệu của Internet Archive để huấn luyện các mô hình trí tuệ nhân tạo. Graham James, người phát ngôn của New York Times, cho biết "vấn đề là nội dung của Times trên Internet Archive đang bị các công ty AI sử dụng vi phạm pháp luật bản quyền để cạnh tranh trực tiếp với chúng tôi". (Tuy nhiên, New York Times từ chối làm rõ liệu đây là vấn đề đang thực sự xảy ra hay chỉ là lo ngại mang tính giả thuyết).

Trước đây, Reddit cũng từng nói rằng lo ngại về AI đã dẫn đến quyết định chặn trình thu thập dữ liệu của Wayback Machine. Hiện đang có một cuộc chiến giữa các nhà xuất bản và các công ty AI về tính hợp pháp của việc các công cụ AI huấn luyện trên nội dung của họ mà không có sự cho phép; trong số hơn 100 vụ kiện bản quyền AI tại Hoa Kỳ, nhiều vụ tập trung vào vấn đề này. Các công ty công nghệ sử dụng nội dung từ khắp nơi trên internet, và vì Wayback Machine sở hữu một kho dữ liệu khổng lồ, nó được coi là một nguồn dữ liệu đặc biệt hấp dẫn.

Internet Archive đã tồn tại 30 năm và lưu trữ hơn một nghìn tỷ trang web. Tổ chức phi lợi nhuận này đã trải qua nhiều cuộc chiến pháp lý lớn kể từ năm 2020. Gần đây nhất, họ đã dàn xếp với một nhóm các nhà xuất bản âm nhạc lớn, những người từng tìm kiếm khoản bồi thường lên tới 700 triệu USD liên quan đến dự án Great 78s của Archive. Mặc dù hiện không có hình phạt tài chính lớn nào đang bị đe dọa, nhưng xu hướng ngày càng nhiều cơ quan truyền thông chặn Wayback Machine vẫn poses một mối đe dọa nghiêm trọng đối với sứ mệnh của nó.

Hiện không có công cụ công cộng nào phổ biến có thể so sánh với Wayback Machine. Nếu công cụ này tiếp tục mất quyền truy cập vào các nguồn tin tức lớn, nỗ lực bảo tồn của nó có thể bị xói mòn đến mức các hồ sơ kỹ thuật số đầu tiên của lịch sử trở nên khó tiếp cận hơn nhiều, hoặc thậm chí bị mất hoàn toàn. Đáng chú ý, công cụ này từng được sử dụng trong báo cáo về The New York Times: Vào năm 2016, tờ báo này bị giám sát vì các thay đổi biên tập đối với một bài viết về thượng nghị sĩ Bernie Sanders. Các bản sửa đổi này đã được theo dõi đầu tiên nhờ Wayback Machine.

Nếu một tình huống tương tự xảy ra ngày hôm nay, các phóng viên báo chí giám sát có thể gặp khó khăn trong việc theo dõi các phiên bản cũ của bài viết của Times theo cùng cách đó. Một Wayback Machine bị tê liệt không chỉ là tin xấu cho báo chí trách nhiệm giải trình — mà nó còn sẽ là một đòn giáng mạnh vào hệ thống pháp lý, vì các trang web được lưu trữ bởi công cụ này thường xuyên được trích dẫn làm bằng chứng trong các vụ kiện trên khắp Hoa Kỳ.

Mark Graham của Internet Archive vẫn chưa mất hy vọng rằng một số nhà xuất bản hiện đang chặn trình thu thập dữ liệu của họ có thể sẽ thay đổi hướng đi trong tương lai. Ông cho biết tổ chức phi lợi nhuận này "đang trong cuộc đàm phán" với New York Times và các cơ quan truyền thông khác. Nhưng hiện tại, Graham nói rằng: "không còn nghi ngờ gì nữa, việc khóa chặt ngày càng nhiều phần của web công cộng đang ảnh hưởng đến khả năng của xã hội trong việc hiểu được những gì đang diễn ra trong thế giới của chúng ta."

Wayback Machine đối mặt nguy cơ bị cô lập khi các ông lớn truyền thông chặn truy cập

Xu hướng chặn truy cập vì lo ngại AI

Sự phản đối của cộng đồng nhà báo

Cuộc chiến bản quyền và dữ liệu huấn luyện AI

Bài viết liên quan