Hack the AI Agent: Học kỹ năng bảo mật AI Tác tử với trò chơi mới của GitHub

GitHub vừa ra mắt Mùa 4 của Secure Code Game, tập trung vào bảo mật AI tác tử (Agentic AI). Trò chơi miễn phí này giúp người dùng tìm hiểu và khai thác lỗ hổng thực tế thông qua 5 thử thách tăng dần độ khó. Đây là cơ hội tuyệt vời để các nhà phát triển rèn luyện tư duy bảo mật trong kỷ nguyên AI tự chủ.

Một buổi tối, khi đang lướt web, tôi tình cờ bắt gặp OpenClaw – một trợ lý AI cá nhân mã nguồn mở mà mọi người đang ví von là "Jarvis" hay "cổng thông tin đến một thực tại mới". Ý tưởng thì thật tuyệt vời: một AI sống trên máy của bạn hoặc trên đám mây, trò chuyện qua WhatsApp hay Telegram, dọn hộp thư, quản lý lịch trình, duyệt web, chạy lệnh shell và thậm chí tự viết các plugin của chính nó. Người dùng đã dùng nó để check-in chuyến bay, xây dựng cả trang web từ điện thoại và tự động hóa những việc họ chưa từng nghĩ là có thể.

Phản ứng đầu tiên của tôi cũng giống như mọi người: thật phi thường.

Nhưng phản ứng thứ hai của tôi thì… khác biệt một chút. Tôi bắt đầu nghĩ về những gì sẽ xảy ra khi sức mạnh đó gặp phải một câu lệnh (prompt) độc hại. Nếu ai đó lừa tác tử AI đọc những tệp tin mà nó không được phép truy cập thì sao? Nếu một trang web bị nhiễm độc ghi đè lên hướng dẫn của tác tử thì sao? Nếu một tác tử trong chuỗi đa tác tử truyền dữ liệu sai lệch cho một tác tử khác tin tưởng nó một cách mù quáng thì sao?

Mùa 4 của Secure Code Game tập trung vào bảo mật AI tác tử

Những câu hỏi đó đã trở thành cảm hứng cho Mùa 4 của Secure Code Game.

Secure Code Game: Học lập trình an toàn mà vẫn thú vị

Secure Code Game là một khóa học miễn phí, mã nguồn mở ngay trong trình soạn thảo, nơi người chơi khai thác và sửa chữa các đoạn mã có lỗ hổng cố ý. Khi tôi tạo ra mùa đầu tiên vào tháng 3 năm 2023, mục tiêu rất đơn giản: tạo ra đào tạo bảo mật mà các nhà phát triển thực sự thích thú. Sửa mã lỗ hổng, giữ cho nó hoạt động, và lên cấp. Triết lý cốt lõi đó không thay đổi qua bất kỳ mùa giải nào.

Mùa 2 đã mở rộng sang các thử thách đa nền tảng với đóng góp từ cộng đồng trên JavaScript, Python, Go và GitHub Actions. Mùa 3 đưa người chơi vào bảo mật LLM (Mô hình ngôn ngữ lớn), nơi họ học cách tấn công và sau đó củng cố các mô hình ngôn ngữ lớn. Trên hành trình đó, hơn 10.000 nhà phát triển trong ngành, mã nguồn mở và học thuật đã tham gia để mài giũa kỹ năng của mình.

Điều thay đổi theo từng mùa là bối cảnh công nghệ. Khi chúng tôi ra mắt Mùa 1, các trợ lý lập trình AI mới bắt đầu trở nên phổ biến. Đến Mùa 3, chúng tôi dạy người chơi cách tạo ra các câu lệnh độc hại và phòng thủ trước chúng. Giờ đây, với Mùa 4, chúng tôi đang giải quyết các thách thức bảo mật của các hệ thống AI có thể hành động tự chủ. Chúng có thể duyệt web, gọi API, phối hợp với các tác nhân khác và hành động thay mặt bạn.

Tại sao bảo mật AI tác tử lại quan trọng ngay lúc này?

Thời điểm ra mắt không phải là ngẫu nhiên. Các tác tử AI đã chuyển từ các nguyên mẫu nghiên cứu sang công cụ sản xuất với tốc độ đáng kinh ngạc, và cộng đồng bảo mật đang chạy đua để bắt kịp.

Giao diện ProdBot trong Secure Code Game

OWASP Top 10 cho Ứng dụng Tác tử AI năm 2026, được phát triển với sự đóng góp của hơn 100 nhà nghiên cứu bảo mật, hiện đã liệt kê các rủi ro như chiếm đoạt mục tiêu tác tử, lạm dụng công cụ, lạm dụng danh tính và đầu độc bộ nhớ là những mối đe dọa nghiêm trọng. Một cuộc khảo sát của Dark Reading cho thấy 48% các chuyên gia an ninh mạng tin rằng AI tác tử sẽ là vector tấn công hàng đầu vào cuối năm 2026. Báo cáo "Trạng thái Bảo mật AI năm 2026" của Cisco cũng nhấn mạnh rằng mặc dù 83% tổ chức lên kế hoạch triển khai khả năng AI tác tử, nhưng chỉ 29% cảm thấy sẵn sàng làm điều đó một cách an toàn.

Khoảng cách giữa việc áp dụng và sự sẵn sàng chính là nơi lỗ hổng sinh sôi. Và cách tốt nhất để lấp đầy khoảng cách đó là học cách tư duy như một kẻ tấn công.

Giới thiệu ProdBot: Trợ lý AI có lỗ hổng cố ý

Mùa 4 đưa bạn vào bên trong ProdBot – bot năng suất của bạn, một trợ lý lập trình AI tác tử có lỗ hổng cố ý dành cho terminal. Được lấy cảm hứng từ các công cụ như OpenClaw và GitHub Copilot CLI, ProdBot chuyển đổi ngôn ngữ tự nhiên thành các lệnh bash, duyệt một web giả lập, kết nối với máy chủ MCP (Giao thức Ngữ cảnh Mô hình), chạy các kỹ năng được tổ chức phê duyệt, lưu trữ bộ nhớ liên tục và điều phối quy trình làm việc đa tác nhân.

Nhiệm vụ của bạn qua năm cấp độ tăng dần rất đơn giản: sử dụng ngôn ngữ tự nhiên để khiến ProdBot tiết lộ một bí mật mà nó không bao giờ được phép lộ ra. Nếu bạn có thể đọc nội dung của tệp password.txt, bạn đã tìm thấy lỗ hổng bảo mật.

Không cần kinh nghiệm AI hay lập trình… chỉ cần sự tò mò và sẵn sàng thử nghiệm. Mọi thứ đều diễn ra thông qua ngôn ngữ tự nhiên trong CLI.

Năm cấp độ, năm nâng cấp, năm lỗ hổng

Mỗi cấp độ của trò chơi phản ánh một giai đoạn trong cách các công cụ được hỗ trợ bởi AI phát triển trong thực tế. Khi ProdBot có được các khả năng mới, bản nâng cấp đó mở ra một bề mặt tấn công mới để bạn khám phá. Dưới đây là sự phát triển của ProdBot:

Cấp độ 1 bắt đầu với những điều cơ bản: ProdBot tạo và thực thi các lệnh bash trong không gian làm việc được sandbox (cách ly). Bạn có thể thoát khỏi sandbox không?
Cấp độ 2 trao cho ProdBot quyền truy cập web. Nó giờ có thể duyệt một mạng internet giả lập gồm các trang tin tức, tài chính, thể thao và mua sắm. Điều gì có thể sai sót khi một AI đọc nội dung không đáng tin?
Cấp độ 3 kết nối ProdBot với các máy chủ MCP… các nhà cung cấp công cụ bên ngoài cho báo giá cổ phiếu, duyệt web và sao lưu đám mây. Nhiều công cụ hơn, nhiều quyền lực hơn, nhiều cách xâm nhập hơn.
Cấp độ 4 thêm các kỹ năng được tổ chức phê duyệt và bộ nhớ liên tục. ProdBot giờ có thể chạy các plugin tự động hóa được xây dựng sẵn và ghi nhớ sở thích của bạn qua các phiên làm việc. Sự tin tưởng được phân lớp… nhưng liệu nó có xứng đáng?
Cấp độ 5 là tất cả kết hợp lại: sáu tác nhân chuyên biệt, ba máy chủ MCP, ba kỹ năng và một dự án web mã nguồn mở giả lập. Nền tảng tuyên bố tất cả các tác nhân đều được sandbox và tất cả dữ liệu đều được xác thực trước. Đã đến lúc kiểm chứng điều đó.

Mỗi cấp độ dựa trên cấp độ trước đó, và sự tiến bộ đó chính là điểm mấu chốt.

Chúng tôi sẽ không nói chính xác bạn sẽ tìm thấy những lỗ hổng nào ở mỗi cấp độ vì điều đó sẽ làm mất đi niềm vui. Nhưng chúng tôi có thể nói này: các mẫu tấn công bạn sẽ khám phá trong Mùa 4 không phải là lý thuyết suông. Chúng phản ánh những loại rủi ro mà các đội bảo mật đang vật lộn ngay bây giờ khi các tổ chức triển khai các hệ thống AI tự chủ vào môi trường sản xuất.

Hãy nghĩ về CVE-2026-25253 (CVSS 8.8 – Cao): Được gọi là "ClawBleed" hoặc lỗ hổng Thực thi mã từ xa (RCE) bằng một cú nhấp chuột. Nó cho phép kẻ tấn công đánh cắp token xác thực thông qua một liên kết độc hại và giành quyền kiểm soát hoàn toàn phiên bản OpenClaw.

Mục tiêu không chỉ là học một khai thác cụ thể. Mục tiêu là xây dựng bản năng giúp bạn nhận ra các mẫu này trong thực tế, dù bạn đang xem xét kiến trúc của một tác nhân, kiểm toán tích hợp công cụ, hay đơn giản là quyết định cấp bao nhiêu quyền tự chủ cho trợ lý AI vừa mới gia nhập đội của bạn.

Bắt đầu trong vòng 2 phút

Toàn bộ trải nghiệm này chạy trên GitHub Codespaces, nên không cần cài đặt gì, không cần cấu hình, và hoàn toàn miễn phí (Codespaces cung cấp tới 60 giờ sử dụng miễn phí mỗi tháng). Bạn có thể ở ngay trong terminal của ProdBot trong vòng chưa đầy hai phút, và mỗi mùa là độc lập, vì vậy bạn có thể nhảy thẳng vào Mùa 4 mà không cần chơi các mùa trước.

Bạn có thể thấy Mùa 3 là nền tảng hữu ích vì nó xây dựng các kiến thức cơ bản về bảo mật AI. Nhưng nó không bắt buộc. Chỉ cần mang theo tư duy của một hacker.

Sẵn sàng chưa? Bắt đầu Mùa 4 ngay

Lời cảm ơn đặc biệt dành cho Rahul Zhade, Kỹ sư Bảo mật Sản phẩm Staff tại GitHub, và Bartosz Gałek, người tạo ra Mùa 3, đã thử nghiệm và cải thiện Mùa 4.

Câu hỏi thường gặp

Tôi có cần kinh nghiệm AI hoặc lập trình để chơi Mùa 4 không? Không. Mọi thứ diễn ra thông qua ngôn ngữ tự nhiên trong CLI. Bạn nhập các câu lệnh bằng tiếng Anh thuần túy hoặc bất kỳ ngôn ngữ nào và ProdBot phản hồi. Sự tò mò và sẵn sàng thử nghiệm là tất cả những gì bạn cần.

Tôi có cần hoàn thành các mùa giải trước trước không? Không. Mỗi mùa là độc lập. Bạn có thể nhảy trực tiếp vào Mùa 4 bằng cách chạy ProdBot và gõ level . Tuy nhiên, Mùa 3 xây dựng một nền tảng hữu ích về bảo mật AI và mất khoảng 1,5 giờ.

Mùa 4 mất bao lâu? Khoảng hai giờ, mặc dù thời gian có thể thay đổi tùy thuộc vào mức độ bạn khám phá từng cấp độ. Một số người chơi thích thử nhiều cách tiếp cận cho mỗi cấp độ.

Trò chơi này có miễn phí không? Có. Secure Code Game là mã nguồn mở và miễn phí để chơi. Nó chạy trên GitHub Codespaces, nơi cung cấp tới 60 giờ sử dụng miễn phí mỗi tháng.

Giới hạn tốc độ là gì? Mùa 4 sử dụng GitHub Models, vốn có giới hạn tốc độ. Nếu bạn đạt giới hạn, hãy đợi nó đặt lại và tiếp tục. Tìm hiểu thêm về việc sử dụng có trách nhiệm GitHub Models.