Hướng đi an ninh của OpenClaw: Cân bằng giữa sức mạnh AI và sự an toàn

OpenClaw đang triển khai các biện pháp bảo mật mới nhằm biến trợ lý AI cá nhân trở nên mạnh mẽ hơn nhưng vẫn dễ kiểm soát và kiểm toán. Các cải tiến bao gồm giới hạn hệ thống tệp, kiểm soát luồng mạng, quy trình xác thực plugin nghiêm ngặt và giảm thiểu sự mệt mỏi của người dùng khi phê duyệt lệnh.

Mục tiêu của OpenClaw là trở thành một phương thức đáng tin cậy để vận hành một trợ lý AI cá nhân mạnh mẽ. OpenClaw có khả năng đọc tệp, chạy lệnh, cài đặt plugin, giao tiếp với mạng và hành động trên một máy tính thực cho người dùng thực. Sức mạnh như vậy rất dễ bị mô tả là nguy hiểm, và mối lo ngại đó là hoàn toàn chính đáng. Tuy nhiên, sức mạnh không đồng nghĩa với việc mù quáng, không giới hạn hay không thể kiểm toán.

Một số tính năng bảo mật đã được triển khai, một số đang trong quá trình phát hành, và một số khác vẫn đang trong giai đoạn nghiên cứu. Bài viết này sẽ làm rõ về lộ trình an ninh của OpenClaw, giúp người dùng hiểu rõ những ranh giới an toàn đang được xây dựng.

Hệ thống tệp an toàn từ chối ghi vượt quá giới hạn

Giới hạn hệ thống tệp và fs-safe

OpenClaw chạy trực tiếp trên máy của bạn, nghĩa là nó có thể tiếp xúc với tài liệu, mã nguồn và ảnh của bạn. Rủi ro hệ thống tệp mà mọi người thường nghĩ đến đầu tiên là path traversal (duyệt đường dẫn). Mặc dù rủi ro này là có thật, nhưng nó chỉ là một triệu chứng của một lớp lỗi lớn hơn: các giới hạn không rõ ràng. Mã lệnh có thể nghĩ rằng nó đang ghi bên trong một thư mục gốc, nhưng một liên kết tượng trưng (symlink), đường dẫn tuyệt đối hoặc giải nén lưu trữ lỏng lẻo có thể khiến nó vượt sang khu vực khác.

fs-safe là câu trả lời của chúng tôi cho vấn đề này. Đây là tập hợp các mẫu hệ thống tệp an toàn mà OpenClaw đã phát triển, được đóng gói thành một thư viện dùng chung để mã lõi, plugin và các dịch vụ liền kề đều có thể sử dụng cùng các nguyên thủy giới hạn gốc (root-bounded primitives).

Cần lưu ý rằng fs-safe không phải là một sandbox (hộp cát). Một plugin được phép chạy các lệnh shell tùy ý vẫn có thể thực hiện những việc mà lệnh shell đó cho phép. fs-safe bảo vệ chống lại các lỗi vượt qua biên giới trong mã xử lý hệ thống tệp. Việc ghi bên trong không gian làm việc của plugin sẽ hoạt động, trong khi các nỗ lực ghi đường dẫn tuyệt đối hoặc vượt qua biên giới bên ngoài không gian làm việc đó sẽ thất bại.

Bước tiếp theo là biến các nguyên thủy này thành mẫu mặc định cho các plugin trên ClawHub. Việc bỏ qua chúng không nhất thiết là độc hại, nhưng có liên quan đến bảo mật. Theo thời gian, việc lựa chọn đó sẽ ảnh hưởng đến mức độ tin cậy của plugin.

Luồng mạng đi ra (Egress) và Proxyline

Các hệ thống tác nhân (agentic systems) khiến SSRF (Server-Side Request Forgery) khó xử lý hơn nhiều so với dịch vụ web thông thường. Trong một dịch vụ bình thường, URL do người dùng kiểm soát thường là ngoại lệ. Nhưng trong môi trường của tác nhân AI, URL do người dùng hoặc mô hình ảnh hưởng là hành vi sản phẩm bình thường. "Lấy URL này vì ai đó hoặc điều gì đó đã yêu cầu" là một công việc thường ngày.

Chúng tôi bắt đầu với cách tiếp cận hiển nhiên: xác thực URL trước khi tìm nạp. Tuy nhiên, điều đó là chưa đủ. Xác thực giải quyết DNS, quá trình tìm nạp lại giải quyết DNS một lần nữa, và câu trả lời có thể thay đổi giữa hai lần này. Một máy chủ trỏ đến địa chỉ IP công cộng trong quá trình xác thực có thể trỏ đến một điểm cuối metadata (metadata endpoint) vào thời điểm yêu cầu được gửi đi.

Giải pháp phải nằm ở gần điểm đi ra (egress) hơn. Proxyline là lớp định tuyến quy trình Node của chúng tôi cho việc này. Nó cài đặt định tuyến toàn cục cho các bề mặt mạng của Node và gửi lưu lượng qua proxy mà bạn đã cấu hình. Proxy được cấu hình là nơi chính sách kết nối nên tồn tại: chặn địa chỉ metadata, dải IP riêng, loopback canaries và bất cứ thứ gì môi trường của bạn cần chặn.

Proxyline xác thực và chặn các yêu cầu không an toàn

Proxyline định tuyến, và proxy thực thi. Nó cũng cung cấp khả năng quan sát cho người vận hành. Nếu bạn đã chạy một proxy được quản lý, bạn có thể định tuyến OpenClaw qua đó và giám sát đích đến, tốc độ và các nỗ lực bị chặn từ cơ sở hạ tầng mà bạn đã tin tưởng.

Độ tin cậy của Plugin trên ClawHub

ClawHub phải là cơ quan thẩm quyền về độ tin cậy và nguồn gốc của plugin khi nó đến từ ClawHub. OpenClaw nên tiêu thụ các tín hiệu này trong quá trình cài đặt và cập nhật, thay vì chỉ dựa vào việc kiểm tra cục bộ sau khi sự việc đã xảy ra.

Quy trình ClawHub là sự kết hợp của nhiều tín hiệu: ClawScan, VirusTotal, phân tích tĩnh, kiểm tra metadata, nguồn gốc mã nguồn và kiểm duyệt thủ công. Không có cái nào là phép màu. Các bộ quét gây nhiễu theo những cách khác nhau, và một quy trình hét lên về mọi thứ sẽ dạy người dùng bỏ qua nó.

Đó là nơi ClawHub có thể làm được những gì quy trình cài đặt cục bộ không thể. Nó có thể gắn bằng chứng tin cậy vào một phiên bản gói cụ thể. Nó có thể nói rằng bản phát hành này là sạch, đáng ngờ, bị giữ lại, cách ly, bị thu hồi hoặc độc hại. Nó có thể chặn tải xuống cho các bản phát hành độc hại hoặc bị cách ly.

ClawHub chặn cài đặt một plugin độc hại

Chúng tôi cũng đang khám phá các cấp độ tin cậy cao hơn trên nền tảng cơ bản: các gói chính thức, nhà xuất bản tin cậy và các gói được giữ theo kỳ vọng đánh giá nghiêm ngặt hơn.

Phê duyệt lệnh và sự mệt mỏi vì lời nhắc (Prompt Fatigue)

Các lời nhắc (prompt) đến nhanh hơn mức bất kỳ ai có thể đọc được. Sau vài phút, người dùng thường bật chế độ "YOLO" (tự động chấp nhận tất cả) để công việc có thể tiếp tục. Lúc này, các lời nhắc lại đào tạo người dùng ngừng đọc.

Khắc phục điều này có nghĩa là ít lời nhắc hơn và lời nhắc tốt hơn.

Độ chính xác bắt đầu từ việc phân tích cú pháp. Khớp chuỗi là chưa đủ. Nếu danh sách cho phép hoặc chặn chỉ thấy lệnh bên ngoài, các trình bao bọc (wrapper) có thể trở thành cách vượt qua. Một chính sách hiểu lệnh rm nhưng không thể nhìn thấy bên trong bash -c "rm -rf ~/something" không phải là chính sách mà người dùng nên tin tưởng.

Đường dẫn phê duyệt shell hiện nay đánh giá các chuỗi lệnh bên trong cho các trình bao bọc shell -c phổ biến. Nếu chuỗi bên trong chứa một tệp thực thi không được phép, trình bao bọc không nên làm cho nó an toàn. Trình làm nổi bật lệnh cũng sử dụng Tree-sitter để hiển thị những gì OpenClaw tìm thấy bên trong các trình bao bọc.

Phân tích cú pháp lệnh để phát hiện các tệp thực thi nguy hiểm

Phân tích là nửa dễ dàng. Nửa khó hơn là quyết định khi nào nên hỏi. Một chính sách phê duyệt tĩnh sẽ nhắc về mọi thứ có thể rủi ro, hoặc dựa vào danh sách cho phép/chặn cố định không thể biết liệu lệnh có phù hợp với nhiệm vụ hiện tại hay không. Câu hỏi người dùng thực sự quan tâm là: "Tôi có muốn điều này xảy ra không?". Đó là lý do chúng tôi đang thử nghiệm phê duyệt theo ngữ cảnh.

Phân tích tĩnh

OpenClaw đã có nhiều Cảnh báo Bảo mật GitHub (GHSA). Công việc đầu tiên là bịt các lỗ hổng. Công việc tiếp theo là đảm bảo cùng một lớp lỗi đó không quay trở lại.

Sau khi một cảnh báo được vá, thật dễ dàng để coi đó là xong. Nhưng một GHSA là bằng chứng về một lớp lỗi, không chỉ là một lỗi duy nhất. Câu hỏi sau khi phân loại là: chúng ta có thể tìm thấy tất cả mã trông giống như thế này không?

Để làm điều đó, chúng tôi sử dụng OpenGrep với một bộ quy tắc chính xác. Mỗi quy tắc được gắn với một cảnh báo, báo cáo hoặc phát hiện của đánh giá. Mục tiêu cơ bản là phát hiện hồi quy: nếu cùng một dạng lỗ hổng quay trở lại, CI sẽ bắt nó trước khi đánh giá. Mục tiêu tốt hơn là phát hiện biến thể: bắt các phiên bản lân cận của cùng một sai lầm.

Hiện tại, bộ quy tắc OpenGrep chính xác đã được kiểm tra có 148 quy tắc. Nó chạy trên các diff của PR và quét đầy đủ có thể được chạy thủ công. Các cảnh báo đã vá mới sẽ trở thành ứng viên cho các quy tắc mới.

Điều này có nghĩa gì cho người dùng OpenClaw

OpenClaw không trở nên kém mạnh mẽ hơn. Chúng tôi đang làm cho các ranh giới dễ nhìn thấy và dễ phòng thủ hơn.

Chúng tôi sẽ không hứa hẹn về các tác nhân không rủi ro. Bất kỳ ai hứa hẹn điều đó hoặc đang bán hàng, hoặc chưa vận hành đủ nhiều. Những gì chúng tôi có thể hứa hẹn là hướng đi. OpenClaw có thể giữ được sức mạnh trong khi trở nên dễ phòng thủ hơn. Đó là những gì chúng tôi đang xây dựng.