Diễn đàn Stack Overflow "chết lâm sàng" vì AI, nhưng công ty vẫn sống khỏe nhờ chính AI
Số lượng câu hỏi và câu trả lời trên Stack Overflow giảm mạnh sau sự trỗi dậy của các công cụ AI như ChatGPT. Tuy nhiên, nghịch lý thay, công ty lại đang phát triển nhờ việc bán dữ liệu chất lượng cao để huấn luyện các mô hình ngôn ngữ lớn này.

Diễn đàn Stack Overflow từng là "ngôi nhà" thứ hai của mọi lập trình viên, nơi họ tìm kiếm giải pháp cho những lỗi code khó nhằn. Tuy nhiên, một phân tích dữ liệu gần đây đã chỉ ra một thực tế phũ phàng: hoạt động của diễn đàn này đang suy giảm mạnh mẽ, và "thủ phạm" chính chính là sự trỗi dậy của Trí tuệ nhân tạo (AI).
Biểu đồ sự sụt giảm của Stack Overflow
Sự sụt giảm không thể phủ nhận
Dựa trên dữ liệu từ Stack Exchange Data Explorer (SEDE), có thể thấy rõ xu hướng giảm cả về số lượng câu hỏi lẫn câu trả lời. Hoạt động của diễn đàn từng đạt đỉnh điểm vào giai đoạn 2021-2022, trong thời kỳ đại dịch COVID-19, khi mọi người chuyển sang làm việc từ xa và học lập trình. Tuy nhiên, từ năm 2024, khi ChatGPT và các công cụ AI tương tự trở nên phổ biến, các biểu đồ đã lao dốc không phanh.
Không chỉ có số lượng bài đăng giảm, mà tỷ lệ câu trả lời trên mỗi câu hỏi và tỷ lệ bình luận trên mỗi bài viết cũng đang giảm dần. Đây là những chỉ số quan trọng đánh giá mức độ tương tác của cộng đồng. Sự sụt giảm này đặt ra câu hỏi lớn về chất lượng và tính sống còn của các nền tảng kiến thức cộng đồng trong tương lai.
Nghịch lý: Chết vì AI nhưng sống nhờ AI
Mặc dù diễn đàn có vẻ "chết lâm sàng" về mặt lưu lượng truy cập và tương tác, nhưng công ty mẹ Stack Overflow lại đang phát triển mạnh mẽ. Lý do nằm ở chỗ: nếu các Mô hình Ngôn ngữ Lớn (LLM) chỉ tốt bằng dữ liệu được huấn luyện, và dữ liệu đó thường do con người biên tập, thì Stack Overflow vẫn là một trong những nguồn dữ liệu tốt nhất, nếu không phải là tốt nhất, về công nghệ.
"Những câu hỏi phức tạp vẫn được đăng lên Stack vì không còn nơi nào khác. Nếu LLM chỉ tốt bằng dữ liệu, vốn thường do con người biên tập, thì chúng tôi là một trong những nơi tốt nhất cho việc đó, nếu không nói là tốt nhất về mặt công nghệ."
Công ty hiện đang kiếm tiền bằng cách bán dữ liệu chất lượng cao này cho các công ty AI để huấn luyện mô hình của họ. Đây là một sự chuyển đổi mô hình kinh doanh đầy thú vị: từ một cộng đồng người dùng đóng góp nội dung miễn phí sang một nhà cung cấp dữ liệu giá trị cho kỷ nguyên AI.
Đi sâu vào dữ liệu với SQL
Để chứng minh nhận định này, quá trình phân tích dữ liệu cũng gặp không ít thách thức kỹ thuật. Việc truy vấn dữ liệu từ SEDE đòi hỏi kiến thức sâu về SQL, đặc biệt là khi xử lý các tập dữ liệu lớn.
Phân tích dữ liệu SQL
Một trong những vấn đề gặp phải là lỗi "tràn số học" (arithmetic overflow) khi đếm số lượng bản ghi quá lớn, vượt quá giới hạn của kiểu số nguyên (integer). Giải pháp là chuyển sang sử dụng COUNT_BIG() và kiểu dữ liệu BIGINT để xử lý hàng triệu dòng dữ liệu trong vài giây.
Ngoài ra, việc kết nối dữ liệu từ các bảng khác nhau (như bảng bài viết và bảng bình luận) cũng đòi hỏi sự tinh tế trong việc sử dụng INNER JOIN hay LEFT JOIN. Việc sử dụng sai loại kết nối có thể dẫn đến việc "nổ" dữ liệu, khiến số lượng bình luận bị tính sai gấp nhiều lần thực tế. Qua quá trình này, SEDE không chỉ là công cụ phân tích mà còn là một sân tập thực tế hữu ích để luyện tập kỹ năng SQL.
Tương lai của kiến thức lập trình
Dù AI có thể trả lời nhanh chóng các câu hỏi cơ bản, nhưng những vấn đề phức tạp, đòi hỏi tư duy sâu và kinh nghiệm thực chiến vẫn cần sự tham gia của cộng đồng con người. Tuy nhiên, nếu sự tương tác tiếp tục giảm, liệu nguồn dữ liệu "sạch" này có cạn kiệt, khiến các mô hình AI tương lai không còn dữ liệu chất lượng để học hỏi?
Đối với các lập trình viên Việt Nam, đây là một lời nhắc nhở về việc cân bằng giữa việc sử dụng AI như một công cụ hỗ trợ và việc duy trì văn hóa chia sẻ kiến thức trên các cộng đồng chuyên môn. Stack Overflow có thể thay đổi, nhưng nhu cầu kết nối và học hỏi từ nhau thì vẫn còn nguyên giá trị.
Bài viết liên quan

Công nghệ
On Call: Khi máy tính hoạt động tốt trong phòng lab nhưng "chết" tại hiện trường
08 tháng 5, 2026

Công nghệ
Cảnh sát bắt giữ nghi can được cho là "ông trùm" của trang web buôn bán ma túy Dream Market
14 tháng 5, 2026

Công nghệ
Oncology Institute xác nhận rò rỉ dữ liệu bệnh nhân do lỗ hổng tại nhà cung cấp bên thứ ba
25 tháng 5, 2026
