Kinh tế ngôi sao giả trên GitHub: Khi 6 triệu sao ảo quyết định hàng triệu USD vốn đầu tư

20 tháng 4, 2026·6 phút đọc

Một nghiên cứu của Đại học Carnegie Mellon đã phát hiện 6 triệu ngôi sao giả trên GitHub, tạo ra một nền kinh tế ngầm nơi các startup mua sự phổ biến để thu hút nhà đầu tư mạo hiểm. Vòng xoáy này không chỉ làm sai lệch các chỉ số kỹ thuật mà còn tiềm ẩn rủi ro pháp lý nghiêm trọng.

Kinh tế ngôi sao giả trên GitHub: Khi 6 triệu sao ảo quyết định hàng triệu USD vốn đầu tư

Kinh tế ngôi sao giả trên GitHub: Khi 6 triệu sao ảo quyết định hàng triệu USD vốn đầu tư

Một nghiên cứu học thuật quy mô lớn vừa hé lộ bức tranh đáng báo động về nền kinh tế ngầm trên GitHub, nơi các "ngôi sao" (stars) được mua bán công khai để thao túng uy tín của các dự án mã nguồn mở. Cuộc điều tra này cho thấy cách thức mà các dự án, đặc biệt là trong lĩnh vực AI và Blockchain, đang sử dụng các chỉ số ảo để chuyển hóa thành hàng triệu USD vốn đầu tư mạo hiểm.

GitHub Fake Stars InvestigationGitHub Fake Stars Investigation

6 triệu ngôi sao giả và công cụ StarScout

Bằng chứng xác thực nhất đến từ một nghiên cứu được bình duyệt tại hội nghị ICSE 2026 của các nhà khoa học từ Đại học Carnegie Mellon, Đại học Bang North Carolina và Socket. Công cụ StarScout của họ đã phân tích 20 terabyte dữ liệu metadata của GitHub, bao gồm 6,7 tỷ sự kiện và 326 triệu ngôi sao từ năm 2019 đến 2024.

Kết quả cho thấy có khoảng 6 triệu ngôi sao giả được phân phối trên 18.617 kho lưu trữ (repositories) bởi khoảng 301.000 tài khoản. Vấn đề này bùng nổ mạnh mẽ vào năm 2024; đến tháng 7, tỷ lệ các kho lưu trữ có 50 sao trở lên dính líu đến các chiến dịch sao giả đã lên tới 16,66%, tăng từ mức gần như bằng không trước năm 2022.

Đáng chú ý, các kho lưu trữ AI và LLM (Mô hình ngôn ngữ lớn) trở thành nhóm nhận sao giả lớn nhất (phi độc hại), vượt qua các dự án Blockchain về khối lượng tuyệt đối. Nghiên cứu chỉ ra rằng nhiều trong số này là các kho lưu trữ bài báo học thuật hoặc sản phẩm startup liên quan đến LLM.

Chợ đen mua bán ngôi sao

Nền kinh tế mua bán sao trên GitHub đã chuyên nghiệp hóa và hoạt động công khai. Không cần đến dark web, khách hàng có thể dễ dàng tìm thấy dịch vụ này trên hàng chục website, Fiverr và các kênh Telegram.

Giá cho một ngôi sao GitHub dao động từ 0,03 USD đến 0,85 USD tùy thuộc vào chất lượng tài khoản:

  • Phân khúc giá rẻ (0,03 - 0,10 USD): Sử dụng tài khoản vứt đi, mới và trống rỗng.
  • Phân khúc tầm trung (0,20 - 0,50 USD): Tài khoản có một chút lịch sử hoạt động.
  • Phân khúc cao cấp (0,80 - 0,90 USD): Tài khoản cũ nhiều năm, có kho lưu trữ và lịch sử đóng góp (contributions) để trông tự nhiên nhất.

Các nền tảng như SocialPlug.io hay GitHubPromoter.com thậm chí cung cấp API để mua sao theo chương trình. Một số dịch vụ còn cam kết thay thế nếu sao bị xóa, đảm bảo chúng tồn tại qua các hệ thống phát hiện của GitHub.

Từ sao ảo đến tiền thật: Vòng xoáy gọi vốn

Tại sao các startup lại tốn tiền mua sao? Câu trả lời nằm trong quy trình gọi vốn. Các nhà đầu tư mạo hiểm (VC) sử dụng số lượng sao GitHub như một tín hiệu quan trọng để sàng lọc các dự án tiềm năng.

Jordan Segall, Đối tác tại Redpoint Ventures, đã công bố phân tích cho thấy số sao trung bình của các công ty công cụ phát triển phần mềm ở vòng Seed là 2.850 và vòng Series A là 4.980. Ông xác nhận: "Nhiều quỹ VC viết các chương trình quét dữ liệu nội bộ để tìm các dự án GitHub tăng trưởng nhanh, và chỉ số phổ biến nhất họ nhìn vào là số sao".

Với chi phí chỉ khoảng 85 - 285 USD để mua đủ số sao chuẩn vòng Seed, so với số tiền gọi vốn từ 1 đến 10 triệu USD, tỷ suất lợi nhuận đầu tư (ROI) là cực kỳ hấp dẫn. Chỉ số ROSS (Runa Open Source Startup) của Runa Capital, vốn xếp hạng các startup mã nguồn mở tăng trưởng nhanh nhất, cũng bị ảnh hưởng bởi các chỉ số sai lệch này.

Dấu vân tay của sự thao túng

Để nhận diện các kho lưu trữ mua sao, chúng ta có thể nhìn vào các chỉ số sâu hơn chứ không chỉ là tổng số sao. Phân tích của chúng tôi trên 20 kho lưu trữ cho thấy các dự án tự nhiên (như Flask, LangChain) có những đặc điểm khác biệt hoàn toàn so với các dự án bị nghi ngờ can thiệp.

Chỉ số mạnh nhất để phát hiện là tỷ lệ fork trên sao (fork-to-star ratio).

  • Dự án tự nhiên: Flask có tỷ lệ 235 fork trên 1.000 sao.
  • Dự án nghi ngờ: Shardeum chỉ có 22 fork trên 1.000 sao.

Khi một dự án có hàng trăm nghìn sao nhưng gần như không ai fork (sao chép) mã nguồn về sử dụng, đó là dấu hiệu rõ ràng của sự thao túng. Ngoài ra, các dự án mua sao thường có tỷ lệ cao người "bắt sao" (stargazers) có 0 người theo dõi (followers) và 0 kho lưu trữ công khai—những tài khoản "ma" được tạo ra chỉ để bấm nút star.

Rủi ro pháp lý tiềm ẩn

Việc mua bán ngôi sao giả không chỉ là vấn đề đạo đức mà còn là rủi ro pháp lý thực sự. Quy tắc của FTC (Ủy ban Thương mại Liên bang Mỹ) có hiệu lực từ tháng 10/2024 cấm bán hoặc mua "chỉ số giả về ảnh hưởng mạng xã hội" được tạo ra bởi bot hoặc tài khoản giả cho mục đích thương mại, với mức phạt lên tới 53.088 USD cho mỗi vi phạm.

Thậm chí nghiêm trọng hơn, SEC (Ủy ban Chứng khoán và Giao dịch Hoa Kỳ) đã từng truy tố CEO của HeadSpin vì tội lừa đảo dây điện và chứng khoán liên quan đến việc thổi phồng các chỉ số metric để lừa các nhà đầu tư. Thông điệp của SEC rất rõ ràng: Các startup không thể dùng tư duy "giả vờ cho đến khi thành công" (fake it till you make it) để bao che cho việc nói dối với nhà đầu tư.

Giải pháp và tương lai

Hiện tại, GitHub vẫn đang thực thi các biện pháp phản ứng và chưa công khai các phương pháp phát hiện chi tiết. Các nhà nghiên cứu từ CMU đã đề xuất GitHub nên sử dụng chỉ số phổ biến có trọng số dựa trên tính trung tâm của mạng lưới thay vì chỉ đếm số sao thô.

Đối với các nhà đầu tư và cộng đồng developer, cần chuyển sang các chỉ số chất lượng hơn như số lượng đóng góp viên duy nhất hàng tháng, chất lượng vấn đề (issues) được báo cáo, và quan trọng nhất là tỷ lệ fork/sao. Như một nhận xét viên đã nói: "Bạn có thể giả mạo số lượng sao, nhưng bạn không thể giả mạo một bản sửa lỗi (bug fix) cứu vãn cuối tuần của ai đó".

Nền kinh tế sao giả là một vấn đề cấu trúc, nơi lợi ích kinh tế ngắn hạn thúc đẩy hành vi gian lận. Cho đến khi các nền tảng, nhà đầu tư và cơ quan quản lý bắt kịp thực tế này, thị trường sẽ tiếp tục trả tiền cho những ảo vọng hào nhoáng.

Bài viết được tổng hợp và biên soạn bằng AI từ các nguồn tin tức công nghệ. Nội dung mang tính tham khảo. Xem bài gốc ↗