RSS trở lại: Các tác nhân AI đang "đọc" nó như thế nào?

Sau cái chết của Google Reader, RSS được cho là đã lỗi thời, nhưng thực tế nó vẫn là nền tảng của ngành podcast trị giá 25 tỷ USD. Giờ đây, các tác nhân AI đang tìm đến RSS như một nguồn dữ liệu ổn định, có cấu trúc và không bị giới hạn bởi các thuật toán phức tạp của mạng xã hội.

Năm 2013, Google Reader chính thức ngừng hoạt động và nhiều người đã vội vàng tuyên bố cái chết của RSS. Những lời điếu văn này đã ra đời quá sớm và sai lầm về nguyên nhân. Thực tế, RSS chưa bao giờ ngừng hoạt động; nó chỉ không còn là cách con người khám phá nội dung chính thống.

Thuật toán mạng xã hội đã chiến thắng cuộc chiến giành sự chú ý của con người bằng cách cung cấp sự kích thích ngẫu nhiên, nhưng các tác nhân AI lại có nhu cầu hoàn toàn khác. Chúng không tìm kiếm sự giải trí, mà tìm kiếm dữ liệu sạch và đáng tin cậy.

RSS và AI Agents

Tại sao các tác nhân AI cần RSS?

Một tác nhân AI được giao nhiệm vụ theo dõi đối thủ cạnh tranh, theo dõi thay đổi quy định hoặc tóm tắt nghiên cứu không muốn bị "ngạc nhiên" bởi các thuật toán gợi ý. Chúng cần những thứ cụ thể mà mạng xã hội không thể cung cấp:

Một danh sách xác định những gì là mới.
Định dạng có cấu trúc mà máy có thể phân tích mà không cần đoán mò.
Không bị giới hạn tốc độ (rate limits) gắn liền với mối quan hệ quảng cáo.
Không có tường bảo vệ xác thực (authentication wall) bảo vệ nội dung công cộng.

RSS cung cấp tất cả bốn yếu tố này. Các nền tảng mạng xã hội không cung cấp bất kỳ yếu tố nào trong số đó. Khi họ cung cấp, họ thường thu hồi quyền truy cập hàng quý và tính phí cho nó. Một nguồn cấp RSS dựa trên cơ chế kéo (pull-based), mở và nhất quán theo cách mà không có thuật toán nào được thiết kế để đạt được, vì nhiệm vụ của thuật toán là tạo ra sự không nhất quán.

Podcasting là minh chứng sống

Bằng chứng rõ ràng nhất cho thấy RSS chưa bao giờ thực sự chết chính là ngành công nghiệp podcast. Mọi ứng dụng podcast (Spotify, Apple, Overcast, Pocket Casts) đều kéo các tệp tập tin và siêu dữ liệu từ các nguồn cấp RSS.

Sự thật về RSS

Toàn bộ ngành công nghiệp podcast trị giá 25 tỷ USD đang vận hành dựa trên một giao thức được xuất bản vào năm 2002. Không ai làm phiền nó vì không có gì để làm phiền: nó mở, miễn phí, không qua trung gian và không cần đàm phán để truy cập. Tập phim luôn nằm tại URL trong nguồn cấp, và đã luôn như vậy.

Tương lai của nội dung viết

Cùng logic này giờ sẽ mở rộng sang bất kỳ nội dung viết nào mà các tác nhân cần tiêu thụ một cách đáng tin cậy. Một mô hình ngôn ngữ truy xuất ngữ cảnh cho truy vấn của người dùng, một tác nhân giám sát kiểm tra các hồ sơ mới, hoặc một công cụ tóm tắt đang tiêu thụ bản tin: tất cả chúng đều hưởng lợi từ một danh sách nội dung mới có cấu trúc, dễ dự đoán và theo trình tự thời gian. Đó chính là RSS.

Câu hỏi đặt ra không phải là RSS có sống hay không, mà là liệu nội dung của bạn có thể tiếp cận theo cách đó hay không, hay nó nằm bên trong một hệ thống được thiết kế để thu hút sự chú ý của con người và chủ động làm suy giảm quyền truy cập theo chương trình.

Khuyến nghị cho các nhà xuất bản

Nếu bạn chưa có, hãy xuất bản một nguồn cấp RSS cho nội dung của mình. Các tác nhân giám sát nguồn trong lĩnh vực ngách của bạn sẽ tìm thấy các nguồn cấp có cấu trúc này trước khi chúng tìm thấy các trang phụ thuộc vào thuật toán.

Có một cuộc tranh luận trong cộng đồng kỹ thuật về việc liệu các tác nhân có thể "cạo" (scrape) dữ liệu web tốt như phân tích RSS hay không. Mặc dù về mặt kỹ thuật là có thể, nhưng việc cạo dữ liệu rất dễ vỡ: nó sẽ bị phá vỡ khi trang web thêm CAPTCHA, thay đổi đánh dấu (markup) hoặc bắt đầu chặn các tác nhân đã biết. Ngược lại, RSS mang tính xác định và ổn định theo thiết kế, giảm thiểu đáng kể chi phí bảo trì cho các nhà phát triển xây dựng hệ thống giám sát quy mô lớn.