Google DeepMind lo ngại rủi ro khi hàng triệu tác nhân AI bắt đầu tương tác quy mô lớn

Google DeepMind đang tài trợ 10 triệu USD để nghiên cứu các nguy cơ tiềm ẩn khi hàng triệu tác nhân AI tương tác với nhau trên mạng. Rohin Shah cho rằng sự xuất hiện đại trà của các tác nhân có thể tự hoạt động mà không cần giám sát con người tạo ra một loại rủi ro hoàn toàn mới. Mục tiêu là thúc đẩy nghiên cứu học thuật về an toàn trong các hệ thống đa tác nhân trước khi chúng được triển khai rộng rãi trong nền kinh tế.

Google DeepMind đang tài trợ nghiên cứu về những nguy cơ tiềm ẩn khi hàng triệu tác nhân AI khác nhau tương tác với nhau trên mạng. Theo Rohin Shah, người phụ trách nghiên cứu an toàn và căn chỉnh Trí tuệ nhân tạo tổng quát (AGI) của công ty, sự xuất hiện đại trà của các tác nhân có thể thực hiện nhiệm vụ mà không cần giám sát của con người và tuân theo chỉ thị từ các tác nhân khác sẽ tạo ra một loại rủi ro hoàn toàn mới.

Để giải quyết vấn đề này, Google DeepMind — công ty đã đưa các công cụ dựa trên tác nhân AI trở thành tâm điểm tại hội nghị Google I/O tháng trước — đã hợp tác với một số tổ chức khác để công bố gói tài trợ trị giá 10 triệu USD. Các nhà nghiên cứu được khuyến khích nghiên cứu hành vi của các hệ thống đa tác nhân và tìm ra các phương pháp ngăn chặn các tình huống không an toàn. Các đối tác bao gồm Schmidt Sciences, ARIA (cơ quan moonshot của chính phủ Anh), Quỹ Cooperative AI và Google.org.

Mục tiêu là thúc đẩy nghiên cứu bên ngoài các công ty công nghệ. Shah chia sẻ: "Điểm mạnh của giới học thuật là họ có thể nhìn xa về tương lai và thực hiện những công việc không phải là ưu tiên hàng đầu tại các phòng thí nghiệm trong ngành công nghiệp."

Ông bổ sung thêm: "Vấn đề chính là hiện tại thực sự chưa có một lĩnh vực nghiên cứu nào về an toàn đa tác nhân. Và chúng tôi muốn lĩnh vực đó được hình thành."

Lo ngại lớn nhất là khi ngày càng nhiều tác nhân AI được triển khai và bắt đầu làm việc cùng nhau, chúng ta có thể đạt đến điểm bùng phát nơi các kịch bản tưởng tượng trở thành hiện thực. "Chúng ta cũng thấy điều này ở nhân loại," Shah nói. "Các thể chế của chúng ta có thể hoàn thành những việc mà không một cá nhân nào làm được." Shah tin rằng chúng ta còn vài tháng nữa trước khi các tác nhân được triển khai khắp nền kinh tế với số lượng đủ lớn để biến rủi ro tiềm năng thành mối lo ngại thực sự.

Vậy chính xác chúng ta đang nói về những rủi ro nào? Các khả năng mà Shah và James Fox (từ Schmidt Sciences) nghĩ đến chủ yếu là các phiên bản cường điệu hóa của những điều xấu đã xảy ra trên Internet hiện nay: lừa đảo, chèn lệnh nhắc (prompt injection) — nơi tác nhân AI bị đưa vào hướng dẫn độc hại, biến nó thành một phần mềm độc hại tự hướng dẫn — và các hình thức tấn công mạng khác.

Fox nhận định: "Chúng ta có một không gian kỹ thuật số thiết yếu cho cách xã hội vận hành, và bạn thực sự muốn đảm bảo rằng nó không bị chìm vào sự hỗn loạn tuyệt đối."

Cả Shah và Fox đều cho rằng cách duy nhất để hiểu điều gì có thể xảy ra khi số lượng lớn hệ thống đa tác nhân tương tác với nhau là chạy các mô phỏng thực tế. Họ muốn các nhà nghiên cứu thả các tác nhân AI vào các môi trường kiểm soát (sandbox) và nghiên cứu hành vi của chúng.

Bạn không thể dự đoán điều gì sẽ xảy ra bằng cách nghiên cứu các tác nhân đơn lẻ, hoặc thậm chí các nhóm nhỏ tác nhân, một cách cô lập. Bạn không thể giả định rằng các tác nhân AI dựa trên Mô hình ngôn ngữ lớn (LLM) sẽ luôn hành động hợp lý, Fox nói. Và sự phức tạp đến từ việc có hàng triệu tương tác diễn ra cùng một lúc.

Một số nhà nghiên cứu, bao gồm cả một nhóm tại Google DeepMind, đã lập luận rằng trí tuệ nhân tạo tổng quát (nếu có thể đạt được) có thể không đến từ một mô hình siêu thông minh duy nhất mà từ một dạng "tâm trí bầy đàn" của các tác nhân, nơi khả năng của tổng thể lớn hơn tổng các phần tử cấu thành.

Google DeepMind không phải là công ty AI hàng đầu duy nhất cảnh báo về rủi ro của công nghệ mà họ đang xây dựng. Gần đây, Anthropic cũng đã đưa ra hướng dẫn triển khai tác nhân AI dựa trên phương pháp "zero trust" (không tin tưởng) trong an ninh mạng, phương pháp bắt đầu bằng giả định rằng hệ thống máy tính luôn dễ bị tổn thương và một cuộc tấn công sẽ xảy ra.

Refael Angel, đồng sáng lập và CTO của công ty an ninh mạng Akeyless có trụ sở tại Tel Aviv, đồng ý rằng việc hiểu rõ các rủi ro mới do hệ thống dựa trên tác nhân mang lại là rất quan trọng.

Mọi cách tiếp cận an ninh trong quá khứ đều giả định rằng máy tính trong câu hỏi là phần mềm do con người viết, thực hiện các việc cố định trên các đường dẫn cố định, Angel nói: "Một tác nhân phá vỡ tất cả các giả định đó. Nó suy luận, nó ứng biến, và nó có thể bị không tặc bởi một câu đơn lẻ chôn trong tài liệu mà nó được yêu cầu đọc."

Angel hoan nghênh khoản tài trợ mới này. "Không một phòng thí nghiệm đơn lẻ nào nên là người đặt ra các tiêu chuẩn an toàn mà mọi người khác phải tin tưởng," ông nói. Tuy nhiên, ông cảnh báo rằng các nhà nghiên cứu an toàn có thể bỏ qua những vấn đề nhàm chán đã tồn tại hiện tại để ưu tiên cho các giả thuyết kỳ lạ hơn.

Và yet, Fox lưu ý, những rủi ro từng mang tính giả thuyết vài năm trước giờ đây đã trở nên rất thực tế: "Tương lai đã đến nhanh hơn có lẽ chúng ta mong đợi."