AWS WorkSpaces: Cho phép tác nhân AI điều khiển ứng dụng desktop cũ kỹ mà không cần API

AI & ML13 tháng 5, 2026·5 phút đọc

AWS vừa công bố tính năng mới cho Amazon WorkSpaces, cho phép các tác nhân AI sử dụng máy tính ảo để điều khiển các ứng dụng desktop cũ kỹ thông qua thị giác máy và giả lập thao tác nhập liệu. Mặc dù giải pháp này giúp loại bỏ nhu cầu hiện đại hóa ứng dụng hoặc tích hợp API, nhưng các báo cáo cho thấy chi phí token cho tác nhân dựa trên thị giác có thể cao hơn gấp 45 lần so với phương thức API truyền thống.

AWS WorkSpaces: Cho phép tác nhân AI điều khiển ứng dụng desktop cũ kỹ mà không cần API

AWS đã công bố rằng Amazon WorkSpaces giờ đây có thể đóng vai trò là máy tính để bàn ảo được quản lý dành cho các tác nhân AI (AI agents). Điều này cho phép chúng vận hành các ứng dụng desktop cũ kỹ thông qua thị giác máy tính (computer vision) và giả lập thao tác nhập liệu mà không yêu cầu phải hiện đại hóa ứng dụng hay tích hợp API.

Vấn đề mà giải pháp này giải quyết là rất phổ biến. Theo báo cáo của Gartner năm 2024, 75% tổ chức vẫn đang vận hành các ứng dụng cũ (legacy applications) thiếu các API hiện đại, và 71% công ty trong Fortune 500 vận hành các quy trình quan trọng trên hệ thống mainframe mà không có quyền truy cập lập trình đầy đủ. Đối với những tổ chức này, việc triển khai các tác nhân AI thường buộc họ phải lựa chọn giữa các dự án hiện đại hóa tốn kém hoặc hoãn việc áp dụng công nghệ.

Cách hoạt động của WorkSpaces cho AI Agents

WorkSpaces tiếp cận vấn đề theo một hướng khác: cung cấp cho tác nhân cùng một màn hình làm việc mà nhân viên con người sử dụng. Tác nhân xác thực thông qua IAM, kết nối đến một phiên bản WorkSpaces tại một URL đã ký trước (pre-signed URL) và tương tác với các ứng dụng bằng cách chụp ảnh màn hình (thị giác máy), nhấp chuột, gõ phím và cuộn trang (giả lập nhập liệu). Ứng dụng hoàn toàn không biết rằng đang có một tác nhân AI đang điều khiển nó, và không cần thay đổi bất kỳ mã nguồn nào của phần mềm.

Chris Noon, Giám đốc tại Nuvens Consulting, đã mô tả giá trị của giải pháp này đối với các ngành được kiểm soát gắt gao trong thông báo:

WorkSpaces cho phép khách hàng của chúng tôi cung cấp cho các tác nhân AI cùng môi trường máy tính để bàn an toàn và được quản lý mà nhân viên của họ đang sử dụng. Không cần tích hợp API tùy chỉnh, có đầy đủ nhật ký kiểm tra và khả năng cách ly cấp doanh nghiệp ngay lập tức. Đối với các ngành được kiểm soát, đó không phải là thứ "có thì tốt", mà là yêu cầu cơ bản.

Tích hợp MCP và Khả năng tương thích

Việc tích hợp giao thức MCP (Model Context Protocol) là yếu tố giúp khung này trở nên trung lập. WorkSpaces cung cấp một điểm cuối MCP được quản lý, nghĩa là bất kỳ khung tác nhân nào nói chuyện được với MCP — bao gồm LangChain, CrewAI và Strands Agents — đều có thể kết nối. AWS đã chứng minh khả năng này với một tác nhân Strands được xây dựng trên Amazon Bedrock, xử lý quy trình kê đơn lại trong hệ thống dược phẩm mẫu: tra cứu hồ sơ bệnh nhân, tìm kiếm thuốc, đặt hàng và xác nhận đơn lại, tất cả đều không cần API.

Mô hình bảo mật và Chi phí

Mô hình bảo mật kế thừa mọi thứ mà doanh nghiệp đã có cho môi trường WorkSpaces của con người. Các tác nhân chạy trong các phiên bản WorkSpaces bị cô lập, không phải trên máy cục bộ hay mạng nội bộ. CloudTrail ghi lại mọi hoạt động để kiểm tra, trong khi CloudWatch cung cấp khả năng quan sát. AWS khuyến nghị cấp cho mỗi tác nhân một danh tính IAM riêng biệt để phân biệt hành động của tác nhân với hoạt động của con người.

Tuy nhiên, câu hỏi về chi phí là một điểm gây hoài nghi. Reflex, một công ty AI lập trình, gần đây công bố nghiên cứu benchmark cho thấy một tác nhân thị giác tiêu thụ khoảng 500.000 token đầu vào để hoàn thành nhiệm vụ mà một tác nhân API chỉ cần 12.000 token — chênh lệch chi phí gấp 45 lần. Palash Awasthi, người phụ trách tăng trưởng của Reflex, lập luận rằng:

Các mô hình thị giác tốt hơn giúp giảm tỷ lệ lỗi trên mỗi ảnh chụp màn hình, nhưng chúng không làm giảm số lượng ảnh chụp màn hình cần thiết để tiếp cận dữ liệu liên quan.

Tác nhân thị giác cũng mất 17 phút để hoàn thành nhiệm vụ so với chỉ 20 giây cho đường dẫn API. Awasthi thừa nhận rằng các mô hình tốt hơn sẽ cuối cùng giảm chi phí, nhưng duy trì quan điểm rằng các tác nhân dựa trên thị giác sẽ luôn yêu cầu nhiều bước hơn so với các giải pháp dựa trên API.

Sự đánh đổi này chính là điểm mà AWS muốn nhấn mạnh: tác nhân sử dụng máy tính và API giải quyết các vấn đề cơ bản khác nhau. Khi có API, tác nhân nên sử dụng nó. Nhưng phần lớn phần mềm doanh nghiệp, hệ thống ERP cũ, ứng dụng thick-client và công cụ độc quyền đơn giản là không có quyền truy cập API.

Đối với những ứng dụng này, một tác nhân đắt hơn 45 lần vẫn có thể rẻ hơn một dự án hiện đại hóa kéo dài nhiều năm. Câu hỏi đối với mỗi tổ chức là liệu giá trị của việc tự động hóa quy trình làm việc có biện minh cho chi phí token ở quy mô cụ thể của họ hay không. Tính chất tạm thời của máy tính để bàn đám mây giúp quản lý chi phí: tổ chức có thể khởi chạy một phiên bản WorkSpaces cho một nhiệm vụ cụ thể và tắt nó đi khi tác nhân hoàn thành, thay vì duy trì cơ sở hạ tầng luôn hoạt động.

Microsoft cũng đang theo đuổi cách tiếp cận tương tự với Windows 365 dành cho tác nhân AI, tạo ra một danh mục dịch vụ máy tính để bàn đám mây song song trong đó các hệ thống AI vận hành phần mềm thông qua giao diện người dùng thay vì API.

Tính năng truy cập tác nhân WorkSpaces hiện đã có trong bản xem trước tại các khu vực bao gồm Mỹ Đông (Bắc Virginia, Ohio), Mỹ Tây (Oregon), Canada (Trung tâm), Châu Âu (Frankfurt, Ireland, Paris, London) và Châu Á - Thái Bình Dương (Tokyo, Mumbai, Sydney, Seoul, Singapore). Một kho lưu trữ GitHub chứa mã mẫu hiện đã có sẵn.

Chia sẻ:FacebookX
Nội dung tổng hợp bằng AI, mang tính tham khảo. Xem bài gốc ↗