Atlassian thu thập dữ liệu để huấn luyện AI: Khách hàng gói cao cấp được bảo vệ, người dùng thường không thể từ chối

Bắt đầu từ ngày 17/8, Atlassian sẽ tự động thu thập dữ liệu của khách hàng để huấn luyện các mô hình AI, trừ khi họ sử dụng gói cấp doanh nghiệp cao cấp nhất. Người dùng các gói thấp hơn sẽ buộc phải chia sẻ siêu dữ liệu (metadata) và không có tùy chọn từ chối hoàn toàn.

Atlassian, công ty mẹ của các phần mềm quản lý dự án phổ biến như Jira và Confluence, vừa công bố chính sách mới về quyền riêng tư dữ liệu gây nhiều tranh cãi. Theo đó, từ ngày 17/8 tới, công ty sẽ tiến hành thu thập dữ liệu từ 300.000 khách hàng toàn cầu để phục vụ mục đích huấn luyện trí tuệ nhân tạo (AI).

Chính sách này phân biệt rõ ràng giữa các gói dịch vụ. Nếu khách hàng không trả tiền cho giấy phép Enterprise đắt đỏ nhất hoặc không thuộc các đối tượng bị pháp luật cấm, dữ liệu của họ sẽ được Atlassian sử dụng để đào tạo các mô hình của mình.

Hai loại dữ liệu sẽ bị thu thập

Atlassian cho biết họ sẽ thu thập hai dạng dữ liệu chính từ các sản phẩm đám mây (cloud) của mình: siêu dữ liệu (metadata) và dữ liệu nội bộ ứng dụng (in-app data).

Siêu dữ liệu bao gồm các chỉ số như điểm độ đọc, xếp hạng độ phức tạp của nội dung trang Confluence, phân loại nhiệm vụ, điểm số về sự tương đồng ngữ nghĩa giữa các trang, cũng như các con số như story point trong Jira, ngày kết thúc sprint, hoặc thỏa thuận mức dịch vụ (SLA).

Dữ liệu nội bộ ứng dụng là nội dung do người dùng tạo ra, bao gồm tiêu đề và nội dung trang Confluence, tiêu đề, mô tả và bình luận trong các hạng mục Jira, tên emoji tùy chỉnh, tên trạng thái quy trình làm việc (workflow) tùy chỉnh, v.v.

Sự bất bình đẳng trong quyền riêng tư

Điểm gây tranh cãi nhất nằm ở việc khách hàng các gói thấp (Free, Standard, Premium) gần như không có quyền lựa chọn đối với siêu dữ liệu.

"Nếu gói dịch vụ cao nhất đang hoạt động của khách hàng Atlassian là Free, Standard hoặc Premium, việc đóng góp siêu dữ liệu luôn được bật và họ không thể từ chối," Arseny Tseytlin, Trưởng bộ phận truyền thông sản phẩm của Atlassian, khẳng định.

Tseytlin giải thích rằng tất cả siêu dữ liệu đều được ẩn danh và tổng hợp trước khi sử dụng để cải thiện ứng dụng. Tuy nhiên, việc không cho phép opt-out (từ chối) đã gây ra lo ngại về quyền riêng tư cho các doanh nghiệp nhỏ và cá nhân sử dụng gói rẻ tiền.

Đối với dữ liệu nội bộ ứng dụng:

Gói Free và Standard: Mặc định là BẬT, nhưng có thể tắt (opt-out).
Gói Premium và Enterprise: Mặc định là TẮT.

Lưu trữ và mục đích sử dụng

Sau khi thu thập, Atlassian cho biết họ sẽ lưu trữ dữ liệu này lên đến 7 năm. Việc giữ dữ liệu lâu dài giúp công ty quan sát hành vi khách hàng sâu sắc hơn để cải thiện trải nghiệm tổng thể.

Mục tiêu của việc huấn luyện này là giúp các ứng dụng của Atlassian cung cấp kết quả tìm kiếm chính xác hơn, tóm tắt nội dung ngắn gọn hơn, đề xuất mẫu tài liệu phù hợp hơn và tối ưu hóa các quy trình làm việc đa bước (agentic workflows).

Những trường hợp ngoại lệ

Một số nhóm khách hàng đặc biệt sẽ được miễn trừ hoàn toàn khỏi việc thu thập dữ liệu, bao gồm:

Người dùng sử dụng Customer-managed keys (khách hàng tự quản lý khóa mã hóa).
Người dùng Atlassian Government Cloud hoặc Atlassian Isolated Cloud.
Khách hàng có yêu cầu tuân thủ HIPAA (y tế).
Một số khách hàng thuộc chính phủ và dịch vụ tài chính.

Nếu khách hàng chấm dứt hợp đồng trước ngày 17/8, các cài đặt mới sẽ không được áp dụng. Sau ngày này, nếu khách hàng chọn từ chối hoặc xóa ứng dụng, Atlassian cam kết sẽ xóa dữ liệu trong ứng dụng khỏi bộ dữ liệu của họ trong vòng 30 ngày và đào tạo lại các mô hình AI đã học từ dữ liệu đó trong vòng 90 ngày.