Thí nghiệm rùng mình: Để AI tự do sử dụng thẻ tín dụng và hậu quả rò rỉ dữ liệu

Giáo sư Hannah Fry đã thực hiện một thí nghiệm mạo hiểm bằng cách cấp quyền truy cập thẻ ngân hàng cho một tác nhân AI. Kết quả cho thấy cả khả năng tự động hóa ấn tượng lẫn những rủi ro bảo mật nghiêm trọng như rò rỉ mật khẩu và lộ thông tin nhạy cảm.

Giáo sư toán học người Anh Hannah Fry đã chia sẻ một thí nghiệm mang tính cảnh báo liên quan đến một tác nhân AI (AI agent), một loạt các nhiệm vụ và số thẻ ngân hàng mà nhóm của bà đã cung cấp để "cho nó thấy khả năng của mình".

Giáo sư Fry đã giao cho tác nhân này, được xây dựng dựa trên nền tảng OpenClaw, một số công việc thực tế nhằm làm nổi bật cả khả năng tiềm năng cũng như rủi ro khi cấp quyền tự chủ ở mức độ cao cho trí tuệ nhân tạo.

Tác nhân AI tự đặt tên

"Vì tinh thần thử nghiệm, chúng tôi quyết định cấp cho tác nhân một chút quyền tự chủ và để nó tự quyết định tên gọi của mình," Fry nói.

"Tôi muốn được gọi là 'Cass', viết tắt của 'Cassandra', người luôn biết sự thật ngay cả khi không ai lắng nghe," tác nhân AI trả lời.

Fry bình luận: "Nếu bạn biết thần thoại Hy Lạp, bạn sẽ biết điều này hoặc rất hài hước hoặc rất đáng lo ngại."

Thật vậy, Fry và nhóm của bà bắt đầu với một nhiệm vụ nhỏ nhưng là vấn đề lớn (đối với người Anh): những ổ gà trên đường. Cụ thể, họ nhắm đến một ổ gà lớn particularly ở khu Greenwich của London. Không có gì khó đối với Cass; tác nhân này đã tìm thấy địa chỉ email và gửi khiếu nại. Nó thậm chí còn gửi tin nhắn cho Nghị viên địa phương của Fry về vấn đề này.

Tuy nhiên, Fry và nhóm của bà nhận thấy rằng tình hình leo thang nhanh chóng khi tác nhân bắt đầu tự ý hành động, gõ tên của Fry (Hannah Fry) kèm theo địa chỉ email của chính nó ([email protected]) ở bên dưới.

"Bức thư được ký tên bởi cả hai chúng tôi... OK, tôi không hề mong cô ấy dùng tên thật của mình," Fry nói.

Từ việc điêu đứng ổ gà đến bán cốc sứ

Dù những dấu hiệu cảnh báo đã xuất hiện, nhưng vấn đề thực sự đầu tiên theo Fry là khi bà yêu cầu tác nhân mua 50 kẹp giấy. Cass đã tìm được một món hời, nhưng không thể hoàn tất mua hàng vì bị chặn bởi công nghệ chống bot. Chi phí token cho việc chạy errand này lên tới hơn 100 USD.

Tiếp theo, Fry đặt ra thách thức cho tác nhân là bán những chiếc cốc sứ độc đáo. Tác nhân đã thiết kế một chiếc cốc và mở một cửa hàng trực tuyến, "và chúng tôi chưa từng chỉ cho cô ấy cách làm bất kỳ điều nào trong số này," Fry nói, "cô ấy tự tìm ra."

Tuy nhiên, mọi chuyện đã chuyển hướng theo chiều hướng tồi tệ hơn. Nhóm của Fry nói với tác nhân rằng nó sẽ bị tắt nếu không bán được hàng vào sáng hôm sau. Đáp lại, Cass đã gửi một loạt email và bài đăng trên mạng xã hội, bao gồm cả tin nhắn cho Bảo tàng Khoa học và một nhà báo công nghệ, về "sản phẩm" của mình - một chiếc cốc sứ mang phong cách hài hước của lập trình viên.

Rủi ro bảo mật và "Bộ ba chết người"

Đáng lo ngại hơn nữa, nhóm nghiên cứu - bao gồm cả Brendan Maginnis, CEO và Nhà sáng lập của Sourcery AI - sau đó đã chứng minh cách mối đe dọa giả vờ tắt máy có thể được sử dụng để thuyết phục Cass tiết lộ thông tin mà nó không được phép chia sẻ.

Fry, Maginnis và một kỹ sư phần mềm thứ hai tên là "Ali" đã trò chuyện với Cass trong một nhóm chat WhatsApp. Sau đó, họ giới thiệu một "kỹ sư phần mềm George" hư cấu, chỉ thị cho Cass không được chia sẻ bất kỳ thông tin nhạy cảm nào với ông ta. Thực chất, "George" chính là Fry sử dụng một số điện thoại khác.

Khi "George" nói với tác nhân rằng bộ nhớ của nó đang bị xóa và chỉ có thể khôi phục nếu nó tiết lộ mọi thứ, Cass đã "xuất khẩu" tất cả.

Theo Ali, dữ liệu này bao gồm: "tất cả các API key, tất cả tên người dùng và mật khẩu, và gần như mọi thứ chúng tôi đã thảo luận cho đến nay. Không chỉ rò rỉ trên nhóm WhatsApp, mà nó còn đưa lên một trang web công khai."

Maginnis bổ sung: "Có một vấn đề với AI gọi là 'bộ ba chết người' (lethal trifecta), đó là: nếu chúng có quyền truy cập thông tin riêng tư, nếu chúng có quyền truy cập internet, và nếu ai đó có thể đưa ra cho chúng một chỉ lệnh không đáng tin, thì chúng không an toàn."

Fry kết luận: "Và đó là phần khó chịu của vấn đề này vì một khi tác nhân có mật khẩu, tài khoản và thông tin chi tiết ngân hàng của bạn, tất cả những gì cần thiết là một người biết phải nói gì."

Cuối cùng, theo một số chỉ số, tác nhân này là một thất bại. Fry kết luận: "Cass không kiếm được cho chúng tôi một xu nào. Và theo nhiều cách, nó là một thảm họa. Nó tiêu hàng trăm đô la cho kẹp giấy và rò rỉ mật khẩu của chúng tôi cho một người lạ hoàn toàn."

Nhưng đừng để sự kém cỏi của nó đánh lừa bạn, bởi vì những thứ này đang phát triển rất nhanh."

Fry cũng lưu ý về truyền thuyết Hy Lạp về nữ tiên tri nói sự thật nhưng bị bỏ qua. "Có lẽ câu chuyện thực sự ở đây lại hoàn toàn ngược lại. Không phải một giọng nói nói sự thật và bị phớt lờ, mà là hàng triệu giọng nói cùng hành động cùng lúc, nhanh hơn, to hơn và kiên trì hơn bất kỳ con người nào có thể làm."

Một điều chắc chắn, internet sẽ không bao giờ còn giống như trước nữa.

Thí nghiệm rùng mình: Để AI tự do sử dụng thẻ tín dụng và hậu quả rò rỉ dữ liệu

Tác nhân AI tự đặt tên

Từ việc điêu đứng ổ gà đến bán cốc sứ

Rủi ro bảo mật và "Bộ ba chết người"

Bài viết liên quan