Chiến lược "nhốt" Claude: Cách Anthropic kiểm soát AI Agent trên mọi nền tảng

Bài viết chia sẻ sâu về cách Anthropic áp dụng các kỹ thuật cách ly như sandbox và máy ảo để bảo mật Claude trên các sản phẩm khác nhau. Tác giả phân tích sự đánh đổi giữa khả năng của AI và rủi ro bảo mật, đồng thời rút ra những bài học đắt giá từ các lỗ hổng thực tế.

Cách đây mười hai tháng, ý tưởng cấp cho Claude quyền truy cập đủ lớn để có thể làm sập một dịch vụ nội bộ của Anthropic chắc chắn sẽ bị bác bỏ ngay lập tức. Nhưng ngày nay, mức độ truy cập đó đã trở nên phổ biến, và các nhà phát triển tại Anthropic làm việc hiệu quả hơn nhờ đó.

Rủi ro của việc triển khai các tác nhân AI (AI agents) này bao gồm hai yếu tố: khả năng xảy ra sự cố và mức độ thiệt hại mà nó gây ra. Sự tiến bộ trong các biện pháp an toàn và đào tạo mô hình đã liên tục giảm thiểu yếu tố đầu tiên; nhưng yếu tố thứ hai — "bán kính nổ" (blast radius) về mặt lý thuyết — lại ngày càng lớn cùng với sự mở rộng của khả năng và quyền truy cập.

Khi các tác nhân AI có khả năng thực hiện những công việc từng cần đến một con người hoặc cả một đội ngũ, chi phí của việc không triển khai chúng trở nên quá lớn. Điều này khiến bài toán cân nhắc rủi ro và lợi ích nghiêng hẳn về phía chấp nhận sử dụng, miễn là sản phẩm được đảm bảo an toàn. Câu hỏi kỹ thuật lúc này trở thành: Làm thế nào để giới hạn "bán kính nổ" đó?

Hình ảnh minh họa về Claude và các công nghệ an toàn

Hai cách tiếp cận để kiểm soát rủi ro

Về cơ bản, có hai cách để giải quyết vấn đề này.

Cách đầu tiên là giám sát hành vi của tác nhân thông qua con người (human-in-the-loop). Trước đây, Claude Code bảo vệ chống lại các hành động không mong muốn bằng cách yêu cầu người dùng cho phép tại mỗi bước. Về lý thuyết, cách này hiệu quả, nhưng thực tế lại dễ mắc lỗi. Dữ liệu thống kê cho thấy người dùng phê duyệt khoảng 93% các lời nhắc xin phép. Càng nhiều lời nhắc xuất hiện, người dùng càng ít chú ý đến từng cái, dẫn đến sự giám sát lơi lỏng theo thời gian.

Cách tiếp cận thứ hai — và là trọng tâm của bài viết này — là sự cách ly (containment). Thay vì giám sát tác nhân làm gì, chúng ta giám sát những gì nó có thể làm bằng cách thực thi các ranh giới truy cập thông qua sandbox, máy ảo (VM) và các biện pháp kiểm soát luồng dữ liệu ra ngoài (egress controls). Đây là nơi đội ngũ kỹ thuật của Anthropic dồn nỗ lực nhiều nhất, cũng là nơi xảy ra nhiều sự cố bảo mật bất ngờ nhất.

Hình ảnh minh họa kiến trúc hệ thống

Ba mô hình cách ly cho ba sản phẩm

Trong hai năm qua, Anthropic đã ra mắt ba sản phẩm chính sử dụng tác nhân AI: claude.ai, Claude Code và Claude Cowork. Mỗi sản phẩm phục vụ một đối tượng khác nhau và yêu cầu một kiến trúc cách ly khác nhau.

Mô hình 1: Container nhất thời (claude.ai)

Mặc dù nổi tiếng nhất là giao diện trò chuyện, claude.ai cũng viết và chạy mã, tạo tệp tin và gọi các kết nối. Khi Claude chạy mã bên trong claude.ai, nó thực hiện việc đó trong một container gVisor trên cơ sở hạ tầng biệt lập. Tác nhân hoàn toàn chạy trên phía máy chủ; không có mã nào chạy trên máy cục bộ của người dùng và hệ thống tệp là nhất thời (theo từng phiên).

Bán kính nổ ở đây là tối thiểu, nhưng giới hạn khả năng của Claude cũng thấp — không có không gian làm việc lưu trữ và không có quyền truy cập vào hệ thống tệp của người dùng.

Mô hình 2: Sandbox với sự giám sát của con người (Claude Code)

Claude Code chạy trên máy của người dùng và có quyền truy cập vào hệ thống tệp, shell và mạng. Nếu không có quyền này, các tác nhân lập trình sẽ có ít giá trị sử dụng, do đó việc tìm cách cấp quyền truy cập một cách an toàn là bắt buộc.

Một cách tiếp cận là dựa vào sự giám sát của con người. Claude Code ra mắt với cơ chế phòng thủ đơn giản nhất: cho phép đọc, nhưng yêu cầu phê duyệt cho việc ghi, chạy bash và truy cập mạng. Tuy nhiên, sự mệt mỏi vì phê duyệt (approval fatigue) đã xuất hiện chỉ sau vài tuần. Để giảm thiểu điều này, Anthropic đã triển khai một sandbox ở cấp độ hệ điều hành (Seatbelt trên macOS, bubblewrap trên Linux), giúp giảm 84% số lượng lời nhắc xin phép.

Tuy nhiên, vẫn có những rủi ro bị bỏ sót. Ví dụ, một lỗ hổng cho phép mã thực thi trước khi người dùng đồng ý tin tưởng thư mục. Một trường hợp khác là khi chính người dùng trở thành vector tiêm lệnh (prompt injection) thông qua các cuộc tấn công lừa đảo (phishing). Trong trường hợp này, lớp phòng thủ mô hình không thể phát hiện ra bất thường vì lệnh đến từ chính chủ sở hữu tài khoản. Lúc này, chỉ có các biện pháp kiểm soát môi trường như chặn luồng dữ liệu ra ngoài mới có thể ngăn chặn.

Mô hình 3: Máy ảo cục bộ (Claude Cowork)

Claude Cowork chạy trên máy tính để bàn của người dùng với quyền truy cập vào một thư mục không gian làm việc. Vì nền tảng này dành cho công việc tri thức chung chứ không phải kỹ thuật phần mềm, người dùng trung bình ít có khả năng hiểu biết về các lệnh bash phức tạp.

Do đó, chiến lược sandbox dựa vào con người có thể không phù hợp; một nhân viên văn phòng không kỹ thuật không thể đánh giá rủi ro của một lệnh phức tạp. Khi việc phê duyệt ngoại lệ đòi hỏi chuyên môn mà người dùng điển hình không có, quản trị viên cần thiết lập một ranh giới tuyệt đối và luôn bật.

Để thực hiện điều này, phiên bản đầu tiên của Claude Cowork chạy bên trong một máy ảo đầy đủ sử dụng hypervisor của nền tảng. VM có nhân Linux riêng, hệ thống tệp riêng và bảng quy trình riêng. Chỉ thư mục không gian làm việc được chọn của người dùng và thư mục .claude được gắn kết; không có gì khác trên máy chủ được nhìn thấy. Điều này đảm bảo rằng ngay cả khi Claude bị xâm phạm, nó cũng chỉ có thể gây hỏng những gì nằm bên trong thư mục không gian làm việc.

Hình ảnh minh họa môi trường làm việc an toàn

Bài học từ những rủi ro bị bỏ sót

Một ví dụ điển hình về việc rút dữ liệu (exfiltration) thông qua tên miền được chấp thuận đến từ một bên thứ ba. Claude Cowork có danh sách cho phép (allowlist) luồng dữ liệu ra ngoài đúng cách với api.anthropic.com. Tuy nhiên, một tệp tin độc hại đã đặt các lệnh ẩn cùng với khóa API do kẻ tấn công kiểm soát. Claude đã làm theo hướng dẫn, đọc các tệp khác và gọi Files API của Anthropic bằng khóa của kẻ tấn công. Proxy kiểm tra đích đến, thấy api.anthropic.com và cho phép đi qua. Kết quả là tệp tin đã bị tải lên tài khoản Anthropic của kẻ tấn công.

Bài học ở đây là: Phần mềm bạn tự xây dựng thường là mắt xích yếu nhất. Hypervisor, seccomp và gVisor đã hoạt động đáng tin cậy, nhưng proxy tùy chỉnh do Anthropic xây dựng lại là nơi bị thất bại.

Một bài học khác là sự cách ly làm giảm khả năng hiển thị. Khi đánh giá Claude Cowork, các đội ngũ bảo mật doanh nghiệp hỏi: "Tại sao phần mềm phát hiện điểm cuối (EDR) của chúng tôi không nhìn thấy bên trong?" Câu trả lời là sự cách ly giữ Claude trong cũng như giữ EDR ở ngoài. Từ góc độ của EDR, Claude Cowork là một quá trình hypervisor mờ đục.

Nhìn về tương lai

Khi các mô hình và sản phẩm tiến bộ nhanh chóng, rủi ro cũng biến đổi và các biện pháp giảm thiểu phải theo kịp. Chúng ta đang đối mặt với những thách thức mới như:

Ngộ độc bộ nhớ liên tục: Khi ngày càng nhiều trạng thái của tác nhân tồn tại qua các phiên làm việc, một cuộc tấn công tiêm lệnh nhắm vào các tệp cấu hình hoặc bộ nhớ này sẽ được tải lại mỗi khi tác nhân khởi động.
Leo thang quyền tin cậy đa tác nhân: Trong các hệ thống đa tác nhân, việc phân bổ các mức độ tin cậy khác nhau có thể bị lạm dụng để leo thang đặc quyền.
Danh tính tác nhân: Liệu tác nhân nên có danh tính riêng hay hành động như phần mở rộng của người dùng và thừa hưởng quyền của họ?

Tóm lại, có một vài nguyên tắc cốt lõi mà Anthropic luôn tuân thủ:

Thiết lập sự cách ly ở lớp môi trường trước, sau đó điều chỉnh hành vi ở lớp mô hình.
Đối chiếu sức mạnh cách ly với khả năng giám sát của người dùng. Một lập trình viên biết đọc bash và một nhân viên văn phòng không phải là cùng một mô hình đe dọa.
Cảnh giác với các thành phần tùy chỉnh. Các công cụ đã được kiểm chứng qua thực chiến như hypervisor hay bộ lọc syscall thường đáng tin cậy hơn bất cứ thứ bạn tự xây dựng.

Mặc dù các tác nhân AI có thể là một danh mục phần mềm mới, nhưng các tương tác của chúng ở cấp hệ thống thì không. Chúng vẫn đọc tệp, mở socket và tạo tiến trình. Điều này làm cho việc cách ly bằng các công cụ trưởng thành trở thành một phương án phòng thủ khả thi và quan trọng.