Agent Desktop: "Playwright" cho ứng dụng máy tính, giúp AI Agents tiết kiệm 80% token
Agent Desktop là công cụ CLI dòng lệnh được viết bằng ngôn ngữ Rust, giúp các tác nhân AI (AI Agents) tự động hóa các ứng dụng máy tính thông qua Accessibility API của hệ điều hành. Công cụ này nổi bật với khả năng giảm thiểu lượng token tiêu thụ nhờ cơ chế duyệt cây giao diện thông minh và hỗ trợ đa ngôn ngữ lập trình.

Agent Desktop: "Playwright" cho ứng dụng máy tính, giúp AI Agents tiết kiệm 80% token
Trong bối cảnh các tác nhân AI (AI Agents) ngày càng trở nên thông minh hơn, nhu cầu cho phép chúng tương tác trực tiếp với môi trường máy tính của người dùng đang trở nên cấp thiết. Đáp ứng nhu cầu này, một dự án mã nguồn mở mới có tên Agent Desktop đã ra mắt, được mệnh danh là phiên bản "Playwright" dành cho các ứng dụng desktop.
GitHub Actions
NPM Version
Được xây dựng bằng ngôn ngữ Rust, Agent Desktop cung cấp quyền truy cập có cấu trúc vào bất kỳ ứng dụng nào thông qua cây khả năng truy cập (accessibility trees) của hệ điều hành. Điều này có nghĩa là nó không phụ thuộc vào việc chụp màn hình hay khớp điểm ảnh (pixel matching), mà thay vào đó hiểu rõ cấu trúc giao diện của phần mềm.
Tối ưu hóa hiệu suất cho AI
Một trong những thách thức lớn nhất khi để AI điều khiển máy tính là chi phí xử lý dữ liệu hình ảnh và văn bản khổng lồ. Agent Desktop giải quyết vấn đề này bằng cơ chế "Progressive skeleton traversal" (duyệt khung xương tiến bộ).
Thay vì tải toàn bộ cây giao diện phức tạp của một ứng dụng như Slack hay VS Code, Agent Desktop chỉ cung cấp cái nhìn tổng quan ở độ sâu thấp (depth-3 map) ban đầu. Sau đó, AI có thể "khoan sâu" (drill-down) vào các khu vực cụ thể khi cần thiết. Theo tác giả, phương pháp này giúp giảm từ 78% đến 96% lượng token tiêu thụ trên các ứng dụng có giao diện dày đặc, giúp hoạt động của AI Agents nhanh hơn và rẻ hơn.
Rust
Tính năng kỹ thuật nổi bật
Agent Desktop được thiết kế như một công cụ CLI mạnh mẽ nhưng cũng linh hoạt trong việc tích hợp:
- Native Rust CLI: Nhanh, nhẹ, chạy dưới dạng binary đơn nhất mà không cần phụ thuộc runtime phức tạp.
- Hỗ trợ FFI (C-ABI): Cung cấp thư viện
cdylibcho phép các ngôn ngữ như Python, Swift, Go, Ruby, Node.js hay C/C++ tải trực tiếp vào bộ nhớ và gọi hàm mà không cần fork tiến trình CLI mỗi lần thực thi. - 53 lệnh tích hợp: Bao gồm quan sát, tương tác, thao tác bàn phím/chuột, quản lý cửa sổ, clipboard và thông báo.
- Tương tác AX-first: Mọi hành động đều ưu tiên sử dụng Accessibility API thuần túy trước khi quay lại các sự kiện chuột mô phỏng, đảm bảo độ tin cậy cao hơn.
- Đầu ra JSON có cấu trúc: Dễ dàng cho máy móc đọc và xử lý, bao gồm cả mã lỗi và gợi ý khôi phục.
Quy trình làm việc của Agent
Vòng lặp làm việc tiêu biểu của một AI Agent sử dụng công cụ này diễn ra như sau:
- Quan sát (Observe): Chạy lệnh
snapshotđể lấy cấu trúc giao diện và các tham chiếu phần tử (ví dụ:@e1,@e2). - Quyết định (Decide): AI phân tích dữ liệu JSON để xác định hành động tiếp theo.
- Hành động (Act): Thực hiện lệnh như
click @e3,type @e5 "text", hoặcpress cmd+s. - Lặp lại: Chụp lại snapshot để xác nhận thay đổi trạng thái và tiếp tục chu trình.
Cài đặt và hỗ trợ nền tảng
Hiện tại, Agent Desktop hỗ trợ tốt nhất trên macOS (yêu cầu macOS 13.0+). Người dùng có thể cài đặt dễ dàng qua npm:
npm install -g agent-desktop
Hoặc chạy trực tiếp mà không cần cài đặt:
npx agent-desktop snapshot --app Finder -i
Dự án cũng đã lên kế hoạch hỗ trợ Windows và Linux trong tương lai. Để sử dụng trên macOS, người dùng cần cấp quyền Accessibility (Truy cập hỗ trợ) cho ứng dụng terminal của mình trong cài đặt hệ thống.
Với khả năng kết nối trực tiếp AI với các ứng dụng desktop một cách thông minh và tiết kiệm tài nguyên, Agent Desktop hứa hẹn sẽ là một công cụ đắc lực cho các nhà phát triển đang xây dựng các hệ thống tự động hóa thế hệ mới.
Bài viết liên quan

Công nghệ
CollectWise, startup hậu thuẫn bởi Y Combinator, tuyển dụng kỹ sư để tự động hóa thu nợ bằng AI
02 tháng 5, 2026
Công nghệ
Nhu cầu tuyển dụng Kỹ sư Phần mềm tăng vọt: Thị trường công nghệ đang phục hồi mạnh mẽ?
02 tháng 5, 2026

Công nghệ
Spotify tung ra huy hiệu "Đã xác minh" để phân biệt nghệ sĩ thật và AI
01 tháng 5, 2026
