Strava tuyên chiến với hành vi "cạo" dữ liệu và áp dụng phí API mới

Trước đợt IPO sắp tới, Strava đang thắt chặt bảo mật để ngăn chặn các công ty AI thu thập dữ liệu trái phép. Công ty cũng thông báo sẽ áp dụng mức phí cố định hàng tháng cho các nhà phát triển truy cập API.

Các công ty trí tuệ nhân tạo (AI) đang trở thành những thực thể "khát" dữ liệu, khi các mô hình của họ đòi hỏi những bộ dữ liệu ngày càng khổng lồ để huấn luyện. Để đáp ứng nhu cầu đó, nhiều startup AI đã phớt lờ các quy ước lâu đời trên internet — như việc tôn trọng tệp robots.txt, tín hiệu cho các trình thu thập tự động biết những phần nào của trang web là khu vực cấm — và tiến hành "cạo" (scrape) dữ liệu một cách mạnh mẽ. Điều này đã buộc các trang web phải hạn chế quyền truy cập vào dữ liệu của mình và, trong một số trường hợp, ký kết các thỏa thuận cấp phép với các công ty AI. Công ty chạy bộ và mạng xã hội thể thao Strava đang thực hiện bước đi theo hướng này bằng cách hạn chế trang web và đưa ra các khoản phí cho quyền truy cập của nhà phát triển.

Để ngăn chặn hành vi cạo dữ liệu, công ty đang tăng cường bảo mật xung quanh trang web và hiện chỉ cho phép người dùng đã xác thực mới có thể xem một số dữ liệu nhất định. Trước đây, người dùng có thể xem các chi tiết như hồ sơ công khai và danh sách các câu lạc bộ thể thao mà không cần đăng nhập. Công ty hiện đang đặt tất cả dữ liệu đó sau lớp xác thực để bảo vệ nó khỏi việc bị AI thu thập trái phép.

Về mặt API, trước đây các nhà phát triển có thể bắt đầu xây dựng ứng dụng trên Strava thông qua chương trình truy cập phân cấp miễn phí — nộp đơn xin quyền truy cập cơ bản trước, sau đó yêu cầu thêm khi ứng dụng phát triển. Giờ đây, công ty sẽ thêm mức phí cố định là 11,99 USD mỗi tháng cho tất cả nhà phát triển, mặc dù lưu ý rằng giá có thể thay đổi tùy theo khu vực địa lý.

Strava cho biết cộng đồng nhà phát triển của họ đã tăng từ 185.000 thành viên vào năm ngoái lên 241.000 trong năm nay, và công ty có kế hoạch tiếp tục hỗ trợ họ. như một phần của nỗ lực đó, Strava cũng có kế hoạch thêm hỗ trợ cho Giao thức Ngữ cảnh Mô hình (MCP) — một tiêu chuẩn mới nổi cho phép các trợ lý AI và ứng dụng truy cập dữ liệu bên ngoài theo cách có cấu trúc, mang lại cho Strava nhiều quyền kiểm soát hơn về việc chính xác những gì được chia sẻ và cách chia sẻ.

Công ty cũng có kế hoạch ngừng sử dụng một số điểm cuối API (API endpoints) — các điểm truy cập riêng lẻ cho phép các ứng dụng bên ngoài kéo dữ liệu cụ thể, như chi tiết câu lạc bộ — để bảo vệ dữ liệu người dùng. Strava thực tế đã thắt chặt quy tắc API vào năm 2024, cấm sử dụng nó để đào tạo AI và hạn chế các ứng dụng bên thứ ba hiển thị dữ liệu của người dùng khác. Những thay đổi đó đã vấp phải sự phản đối gay gắt từ các nhà phát triển, những người cho biết ứng dụng của họ sẽ bị ảnh hưởng nghiêm trọng.

Mặc dù một số nhà phát triển có thể chấp nhận việc trả phí đăng ký, nhưng việc ngừng hoạt động một số điểm cuối API nhất định vẫn có thể ảnh hưởng đến các ứng dụng phụ thuộc vào nó. Strava đang dành thời gian ân hạn 90 ngày cho các nhà phát triển trước khi áp dụng các thay đổi này.

Trong một cuộc phỏng vấn với TechCrunch, Michael Martin, CEO của Strava, cho biết việc cạo dữ liệu AI không kiểm soát có thể là "tấm vé cuối cùng" của internet công cộng.

"Các công ty AI đang cạo dữ liệu từ các trang web công cộng một cách tàn nhẫn, do nhu cầu dữ liệu huấn luyện vô tận, điều này làm suy giảm hiệu suất trang web trên diện rộng," Martin nói. "Chúng tôi đã có nhiều trường hợp trong vài tháng qua nơi hiệu suất bị giảm sút và, trong một số trường hợp, bị tê liệt. Ngoài việc cạo các trang web công cộng, họ cũng đang cố gắng sử dụng API của chúng tôi để có quyền truy cập vào dữ liệu của chúng tôi, phớt lờ các điều khoản API."

Ông lưu ý rằng Strava đã từ chối các đề nghị từ các phòng thí nghiệm AI hàng đầu tìm kiếm các thỏa thuận cấp phép dữ liệu. Ông đặc biệt nhắc đến Perplexity, nói rằng startup tìm kiếm AI này đã định tuyến việc cạo dữ liệu thông qua các dịch vụ tổng hợp để che giấu nguồn gốc của nó dù đã bị từ chối. Điều này phù hợp với việc Perplexity từng bị cáo buộc có hành vi tương tự ở nơi khác trong quá khứ.

Martin cũng chỉ ra tình trạng quá tải máy chủ do các ứng dụng được tạo ra bởi AI (vibe-coded apps) kém chất lượng, trong đó các lệnh gọi API thường được cấu trúc kém hiệu quả và tạo ra tải trọng quá lớn cho hệ thống của Strava. Đây là một mô hình quen thuộc: khi Meta cấm các chatbot bên thứ ba khỏi WhatsApp vào năm ngoái, họ cũng đưa ra lập luận tương tự về gánh nặng hệ thống.

Thời điểm này có lẽ không phải là ngẫu nhiên. Strava đã nộp hồ sơ IPO kín vào đầu năm nay, và động thái bảo vệ dữ liệu của họ có thể nhằm gửi tín hiệu về kỷ luật dữ liệu cho các nhà đầu tư tiềm năng. Việc so sánh với đợt trấn áp quyền truy cập API của Reddit vào năm 2024 là điều mà Martin nhanh chóng giải quyết. Khác với Reddit, nơi định giá quyền truy cập API theo số lệnh gọi (làm cho nhiều nhà phát triển ứng dụng không thể chi trả), Strava đặt cược vào mức phí cố định để giữ hệ sinh thái nhà phát triển nguyên vẹn.

"Chúng tôi muốn người dùng cảm thấy họ sở hữu dữ liệu của mình và cảm thấy thoải mái với cách chúng tôi kiểm soát và bảo mật nó. Nhưng chúng tôi cũng muốn các nhà phát triển tiếp tục phát triển và lớn mạnh," Martin nói.

Strava tuyên chiến với hành vi "cạo" dữ liệu và áp dụng phí API mới

Bài viết liên quan