GitHub Thu Thập Dữ Liệu Tương Tác Từ Người Dùng Để Huấn Luyện Mô Hình AI

02 tháng 4, 2026·3 phút đọc

Vào ngày 24 tháng 4, GitHub sẽ bắt đầu sử dụng dữ liệu tương tác từ người dùng gói Copilot Free, Pro và Pro+ để huấn luyện và cải thiện các mô hình AI. Quy trình này mặc định được bật và thu thập các đoạn mã, đầu vào, đầu ra và các mẫu điều hướng, gây ra nhiều lo ngại lớn về quyền riêng tư và tuân thủ GDPR.

GitHub Thu Thập Dữ Liệu Tương Tác Từ Người Dùng Để Huấn Luyện Mô Hình AI

GitHub Thu Thập Dữ Liệu Tương Tác Từ Người Dùng Để Huấn Luyện Mô Hình AI

Vào ngày 24 tháng 4, GitHub chính thức thông báo việc thu thập dữ liệu tương tác từ người dùng gói Copilot Free, Pro và Pro+ để huấn luyện các mô hình AI của mình. Quy trình này mặc định được bật, buộc người dùng phải tự tay tắt nếu không muốn dữ liệu của họ bị sử dụng.

Dữ Liệu Sẽ Bị Thu Thập Gồm Những Gì?

Khi tùy chọn này được kích hoạt, GitHub sẽ thu thập một loạt các thông tin chi tiết về hành vi lập trình, bao gồm:

  • Các đoạn mã (code snippets) và đầu vào được gửi đến Copilot.
  • Đầu ra được chấp nhận hoặc sửa đổi.
  • Bối cảnh mã xung quanh vị trí con trỏ.
  • Tên file, cấu trúc kho lưu trữ (repository structure) và các mẫu điều hướng.
  • Tương tác với các tính năng như Chat và gợi ý nội tuyến.
  • Phản hồi "thả tim" hoặc "thả tim ngược" của người dùng đối với các gợi ý.

Lo Lắng Về Quyền Riêng Tư và Tuân Thủ GDPR

Phản ứng của cộng đồng lập trình viên đối với thông báo này phần lớn là tiêu cực. Nhiều người gọi đây là một "dark pattern" (mẫu tối), vì các liên kết hướng dẫn tắt tùy chọn trong email của GitHub không hoạt động đúng cách.

Một vấn đề lớn hơn là khả năng lộ mã nguồn tư nhân (private repos). GitHub tuyên bố rằng dữ liệu từ các kho lưu trữ riêng tư có thể được thu thập và sử dụng khi người dùng đang làm việc tích cực với Copilot trong phiên đó. Điều này đặt ra những câu hỏi nghiêm trọng về bảo mật dữ liệu và tuân thủ các quy định như GDPR của Liên minh Châu Âu, khi Microsoft sử dụng lý do "lý do chính đáng" để xử lý dữ liệu cá nhân.

Ảnh Hưởng Đến Môi Trường Doanh Nghiệp

Đối với các tổ chức, chính sách này tạo ra rủi ro khi nhân viên sử dụng gói Copilot cá nhân trong công ty. GitHub chỉ cung cấp cơ chế tùy chọn (opt-out) ở cấp độ cá nhân, không phải cấp độ tổ chức. Điều này có nghĩa là một nhân viên không tắt tùy chọn có thể vô tình lộ mã độc quyền của công ty, ngay cả khi công ty đã sử dụng các gói Business hoặc Enterprise.

"Khi bạn sử dụng Copilot, bạn không chỉ nhận được gợi ý, mà bạn đang ngầm định dạy mô hình cách mã tốt trông như thế nào trong lĩnh vực của bạn. Mẫu mã độc quyền, quyết định kiến trúc và các ngôn ngữ cụ thể của bạn sẽ được đưa vào mô hình chung, sau đó cải thiện gợi ý cho mọi người khác, kể cả đối thủ cạnh tranh của bạn," một lập trình viên đã chỉ trích.

Dù vậy, GitHub cho biết người dùng vẫn có thể tắt tùy chọn này bất cứ lúc nào thông qua cài đặt Copilot. Các đối thủ như Microsoft, Anthropic và JetBrains cũng đang áp dụng các phương pháp tương tự để huấn luyện mô hình.

Bài viết được tổng hợp và biên soạn bằng AI từ các nguồn tin tức công nghệ. Nội dung mang tính tham khảo. Xem bài gốc ↗