CEO Cloudflare đang "dối trá" về sự bùng nổ lưu lượng Bot? Phân tích dữ liệu thực tế
Bài viết chỉ ra sự mâu thuẫn trong tuyên bố gần đây của CEO Cloudflare về việc lưu lượng Bot đã vượt qua con người. Tác giả lập luận rằng dữ liệu đã bị thao túng bằng cách chỉ nhìn vào lưu lượng HTML thay vì tổng lưu lượng, nhằm phục vụ mục đích kinh doanh sản phẩm chống bot của hãng.

Một thủ thuật ảo thuật thực chất là một sự đánh lừa, nó làm sai lệch thực tế. Và những gì CEO Cloudflare công bố gần đây về sự gia tăng của lưu lượng Bot cũng chính là một thủ thuật như vậy.
Tuyên bố cho rằng "...bot đã vượt qua lưu lượng truy cập của con người trên mạng lần đầu tiên trong lịch sử Internet" là sai lệch khi xét về dữ liệu thực tế.
Dữ liệu của Cloudflare thực tế cho thấy lưu lượng trực tuyến vẫn chiếm khoảng hai phần ba là từ con người, chứ không phải con số cao hơn đang được tuyên bố. CEO của công ty đã bỏ qua số liệu tổng lưu lượng (All traffic) ngay trên bảng điều khiển của chính mình, và thay vào đó công bố số liệu chỉ tính riêng lưu lượng HTML (HTML-only) như một sự thật về toàn bộ Internet.
Đó là một lời nói dối về những gì dữ liệu thể hiện, và bộ lọc "All" (Tất cả) trên trang của chính ông ta đã chứng minh điều ngược lại.
Dữ liệu HTML-only của Cloudflare
Thể loại "Agentic" (Tác nhân AI) mà CEO Matthew Prince chỉ ra là nguyên nhân lại đang mâu thuẫn với chính ông ta. Phân khúc Agentic thực tế là rất nhỏ. Những gì thực sự lấp đầy nhóm AI là các bộ thu thập dữ liệu đào tạo (training scrapers), như GPTBot và ClaudeBot, đang kéo văn bản để xây dựng các mô hình. Các bot này đã tăng trưởng ổn định và tồn tại từ trước thông báo của ông ta.
Ông Prince đã đổ lỗi cho một nhóm nhỏ các tác nhân thân thiện, tăng trưởng nhanh đang tìm nạp trang web thay cho con người, nhưng lại hoán đổi nó bằng khối lượng dữ liệu khổng lồ không thân thiện (thu thập hàng loạt để đào tạo). Tại sao? Chúng ta có thể đoán, nhưng đó chính xác là loại lưu lượng mà sản phẩm "trả phí để thu thập" (pay-to-crawl) của công ty ông tồn tại để tính phí.
Đó là một lời chào hàng.
Và nó dựa trên một lời nói dối.
Dữ liệu tổng lưu lượng của Cloudflare
Dữ liệu thực tế cho thấy các trình thu thập dữ liệu tìm kiếm (search crawlers) vẫn là danh mục bot lớn nhất gấp hai lần các loại khác. Con số AI được thổi phồng bằng cách đếm Googlebot hai lần. Lưu lượng AI thực sự tồn tại chủ yếu là các bot đào tạo, và danh mục "agentic" mà Prince chỉ ra là nguyên nhân lại là nhóm nhỏ nhất trong phân loại của chính công ty mình. Thông cáo báo chí về sự gia tăng "agentic" của ông đã bị bộ dữ liệu của chính mình bác bỏ.
