Nguy cơ bảo mật từ "Vibe-Coding": Hàng nghìn ứng dụng AI để lộ dữ liệu nhạy cảm trên mạng

Các công cụ lập trình AI như Lovable, Replit và Base44 cho phép bất kỳ ai tạo ứng dụng web trong vài giây, nhưng cũng vô tình khiến hàng nghìn dữ liệu doanh nghiệp và cá nhân bị lộ trên internet. Nghiên cứu mới chỉ ra rằng nhiều ứng dụng này hoàn toàn không có lớp bảo mật, để lộ thông tin y tế, tài chính và cả chiến lược kinh doanh mật.

Khi trí tuệ nhân tạo (AI) ngày càng đảm nhận vai trò của các lập trình viên hiện đại, giới an ninh mạng đã nhiều lần cảnh báo về việc các công cụ lập trình tự động sẽ mang đến những lỗ hổng bảo mật mới. Tuy nhiên, khi những công cụ "vibe-coding" (lập trình theo cảm hứng) này cho phép bất kỳ ai tạo và lưu trữ ứng dụng web chỉ bằng một cú nhấp chuột, hậu quả không chỉ dừng lại ở các lỗi phần mềm mà là sự vắng mặt hoàn toàn của bất kỳ biện pháp bảo mật nào, thậm chí đối với cả dữ liệu nhạy cảm của doanh nghiệp và cá nhân.

Nghiên cứu viên Dor Zvi và đội ngũ tại công ty an ninh mạng RedAccess đã phân tích hàng nghìn ứng dụng web được tạo bằng các công cụ phát triển phần mềm AI như Lovable, Replit, Base44 và Netlify. Kết quả cho thấy có hơn 5.000 ứng dụng hầu như không có bất kỳ lớp bảo mật hay xác thực nào. Nhiều ứng dụng trong số này cho phép bất kỳ ai tìm thấy đường dẫn URL của chúng đều có thể truy cập và xem dữ liệu. Những ứng dụng khác chỉ có các rào cản vô nghĩa, chẳng hạn như yêu cầu khách truy cập đăng nhập bằng bất kỳ địa chỉ email nào.

Lộ dữ liệu y tế, tài chính và chiến lược doanh nghiệp

Theo ông Zvi, khoảng 40% các ứng dụng này để lộ dữ liệu nhạy cảm, bao gồm thông tin y tế, dữ liệu tài chính, bài thuyết trình chiến lược của công ty và các nhật ký chi tiết về cuộc trò chuyện của khách hàng với chatbot.

"Kết quả cuối cùng là các tổ chức đang thực sự rò rỉ dữ liệu riêng tư thông qua các ứng dụng vibe-coding," ông Zvi nhận định. "Đây là một trong những sự kiện lớn nhất mà mọi người đang phơi bày thông tin doanh nghiệp hoặc nhạy cảm khác cho bất kỳ ai trên thế giới."

Quá trình tìm kiếm các ứng dụng web dễ bị tấn công của RedAccess diễn ra một cách đáng ngờ dễ dàng. Lovable, Replit, Base44 và Netlify đều cho phép người dùng lưu trữ ứng dụng web trên tên miền của chính các công ty AI này thay vì tên miền riêng của người dùng. Do đó, các nhà nghiên cứu đã sử dụng các tìm kiếm đơn giản trên Google và Bing kết hợp với các từ khóa liên quan đến tên miền của các công ty này để xác định hàng nghìn ứng dụng được tạo ra bởi các công cụ trên.

Trong số 5.000 ứng dụng do AI tạo ra mà Zvi phát hiện có thể truy cập công khai cho bất kỳ ai nhập URL vào trình duyệt, ông tìm thấy gần 2.000 ứng dụng mà khi kiểm tra kỹ hơn dường như đang tiết lộ dữ liệu riêng tư. Các ảnh chụp màn hình ứng dụng web mà ông chia sẻ với WIRED—một số trong đó WIRED đã xác minh vẫn đang trực tuyến và bị lộ—cho thấy các thông tin như lịch làm việc của một bệnh viện kèm theo thông tin nhận dạng cá nhân của bác sĩ, thông tin chi tiết về mua quảng cáo của một công ty, bài thuyết trình chiến lược ra thị trường của một công ty khác, nhật ký đầy đủ các cuộc trò chuyện của chatbot với khách hàng (bao gồm tên và thông tin liên lạc của họ), hồ sơ hàng hóa của một công ty vận chuyển và các hồ sơ bán hàng cũng như tài chính từ nhiều công ty khác.

Trong một số trường hợp, ông Zvi phát hiện rằng các ứng dụng bị lộ này thậm chí cho phép ông có được quyền quản trị viên đối với hệ thống và thậm chí xóa các quản trị viên khác.

Trang web lừa đảo mạo danh các tập đoàn lớn

Đối với trường hợp của Lovable, ông Zvi cũng tìm thấy nhiều ví dụ về trang web lừa đảo (phishing) mạo danh các tập đoàn lớn, bao gồm Bank of America, Costco, FedEx, Trader Joe’s và McDonald’s, dường như được tạo bằng công cụ lập trình AI này và được lưu trữ trên tên miền của Lovable.

Khi WIRED hỏi bốn công ty lập trình AI về phát hiện của RedAccess, Netlify không phản hồi, nhưng ba công ty còn lại đã phản bác các tuyên bố của các nhà nghiên cứu và phản đối rằng họ chưa chia sẻ đủ phát hiện của mình hoặc cung cấp đủ thời gian để họ phản hồi. Tuy nhiên, họ không phủ nhận rằng các ứng dụng web mà RedAccess tìm thấy đã bị lộ.

"Từ thông tin hạn chế họ chia sẻ, tuyên bố cốt lõi của [RedAccess] dường như là một số người dùng đã xuất bản các ứng dụng trên web công khai lẽ ra nên là riêng tư," CEO của Replit, Amjad Masad, viết trong một bài đăng phản hồi trên X. "Replit cho phép người dùng chọn xem ứng dụng của họ là công khai hay riêng tư. Việc ứng dụng công khai có thể truy cập trên internet là hành vi dự kiến. Cài đặt quyền riêng tư có thể được thay đổi bất cứ lúc nào chỉ bằng một cú nhấp chuột."

Một người phát ngôn của Lovable phản hồi trong một tuyên bố rằng "Lovable coi trọng các báo cáo về dữ liệu bị lộ và trang web lừa đảo, và chúng tôi đang tích cực làm việc để có được những gì cần thiết để điều tra. Chúng tôi đang coi đây là một vấn đề đang diễn ra. Cũng đáng chú ý là Lovable cung cấp cho người xây dựng các công cụ để xây dựng an toàn, nhưng cách ứng dụng được cấu hình cuối cùng là trách nhiệm của người tạo."

Blake Brodie, người đứng bộ phận quan hệ công chúng của công ty mẹ Base44 là Wix, viết trong một tuyên bố rằng "Base44 cung cấp cho người dùng các công cụ mạnh mẽ để cấu hình bảo mật cho ứng dụng của riêng họ, bao gồm kiểm soát truy cập và cài đặt khả năng hiển thị." Bà thêm rằng "vô hiệu hóa các điều khiển đó là một hành động có chủ đích, đơn giản, bất kỳ người dùng nào cũng có thể làm. Khi ứng dụng có thể truy cập công khai, điều đó phản ánh lựa chọn cấu hình của người dùng, không phải lỗ hổng của nền tảng."

Nguy cơ từ nhân sự không chuyên về công nghệ

Ông Zvi lưu ý rằng đối với vài chục ứng dụng web bị lộ, RedAccess đã liên hệ với chủ sở hữu ứng dụng apparent, người này đã xác nhận rằng dữ liệu đã bị lộ. RedAccess cũng chia sẻ với WIRED các liên lạc được ẩn danh trong một số trường hợp cho thấy người dùng Base44 cảm ơn các nhà nghiên cứu vì đã cảnh báo họ về các ứng dụng web bị lộ, sau đó các ứng dụng này đã được bảo mật hoặc đưa ngoại tuyến.

Joel Margolis, một nhà nghiên cứu bảo mật, người cùng với một đồng nghiệp gần đây đã phát hiện ra một món đồ chơi chat AI đã lộ 50.000 cuộc trò chuyện của món đồ chơi đó với trẻ em trên một trang web hầu như không có bảo mật, cho biết việc xác minh xem dữ liệu thực có bị lộ trên bất kỳ ứng dụng web AI nào không được bảo mật hay không có thể rất khó khăn. Dữ liệu trong ứng dụng web vibe-coding có thể là dữ liệu giả (placeholder), hoặc ứng dụng có thể chỉ là một bằng chứng khái niệm (proof of concept).

Tuy nhiên, ông Margolis nói rằng vấn đề các ứng dụng web được xây dựng bởi AI để lộ dữ liệu là rất có thật. Ông nói ông thường xuyên gặp chính xác loại rò rỉ dữ liệu mà Zvi liệt kê.

"Một người từ nhóm tiếp thị muốn tạo một trang web. Họ không phải là kỹ sư và có thể họ có rất ít hoặc không có nền tảng kiến thức về bảo mật," ông Margolis nói. Các công cụ lập trình AI, theo ông, "làm những gì bạn yêu cầu chúng làm. Và trừ khi bạn yêu cầu chúng làm một cách an toàn, chúng sẽ không cố gắng làm điều đó."

Ông Zvi chỉ ra rằng 5.000 ứng dụng bị lộ mà Red Access tìm thấy chỉ là những ứng dụng được lưu trữ trên tên miền riêng của các công cụ lập trình AI, và có khả năng hàng nghìn ứng dụng khác được lưu trữ trên tên miền do người dùng mua. Ông so sánh làn sóng rò rỉ dữ liệu đang diễn ra do các ứng dụng web được mã hóa bởi AI không an toàn của các công ty với đại dịch dữ liệu bị lộ do cài đặt bảo mật của các bộ chứa lưu trữ Amazon S3 trong những năm trước.

Các công cụ lập trình ứng dụng web AI hiện đang tạo ra một làn sóng rò rỉ dữ liệu, kết quả của sự kết hợp tương tự giữa lỗi người dùng và thiếu các biện pháp bảo vệ. Tuy nhiên, điều cơ bản hơn bất kỳ thất bại bảo mật cụ thể nào của các công ty lập trình AI, theo ông Zvi lập luận, đơn giản là các công cụ này cho phép một lớp người mới trong tổ chức tạo ứng dụng—thường có ít nhận thức về bảo mật và nằm ngoài các quy trình phát triển phần mềm thông thường mà các công ty sử dụng để kiểm tra ứng dụng trước khi phát hành.

"Bất kỳ ai từ công ty bạn tại bất kỳ thời điểm nào cũng có thể tạo ra một ứng dụng, và điều này không trải qua bất kỳ chu kỳ phát triển hay kiểm tra bảo mật nào," ông Zvi nói. "Mọi người có thể chỉ cần bắt đầu sử dụng nó trong môi trường sản xuất mà không cần hỏi ai cả. Và họ thực sự làm như vậy."

Nguy cơ bảo mật từ "Vibe-Coding": Hàng nghìn ứng dụng AI để lộ dữ liệu nhạy cảm trên mạng

Lộ dữ liệu y tế, tài chính và chiến lược doanh nghiệp

Trang web lừa đảo mạo danh các tập đoàn lớn

Nguy cơ từ nhân sự không chuyên về công nghệ

Bài viết liên quan