Sử dụng "thị lực" của AI để điều khiển web tốn kém gấp 45 lần so với dùng API

Các doanh nghiệp đang lãng phí chi phí đáng kể nếu để các tác nhân AI mô phỏng tương tác thị giác của con người thay vì gọi API trực tiếp. Một thử nghiệm mới cho thấy tác nhân thị giác tiêu tốn gấp 45 lần lượng token và hoạt động kém hiệu quả hơn nhiều so với tác nhân API.

Các doanh nghiệp đang triển khai tác nhân AI để tự động hóa việc sử dụng máy tính có thể đang lãng phí ngân sách nếu những tác nhân này cố gắng bắt chước tương tác thị giác của con người.

Reflex, một nền tảng ứng dụng doanh nghiệp, gần đây đã tiến hành một nghiên cứu so sánh giữa các tác nhân thị giác (vision agents) và các tác nhân API (API agents) để đánh giá hiệu suất và chi phí. Kết quả cho thấy sự chênh lệch cực lớn về mặt tài nguyên và tốc độ xử lý giữa hai phương pháp tiếp cận này.

Tác nhân thị giác so với Tác nhân API

Trong bối cảnh này, tác nhân thị giác được định nghĩa là AI mô phỏng hành vi của con người dựa trên xử lý hình ảnh và nhận dạng ký tự quang học (OCR) để vận hành một ứng dụng. Thử nghiệm sử dụng Claude Sonnet điều khiển giao diện người dùng của một ứng dụng web thông qua công cụ browser-use.

Ngược lại, tác nhân API ở đây là Claude Sonnet tương tác với ứng dụng web thông qua các công cụ và API. Thay vì phân tích ảnh chụp màn hình trang web, tác nhân này gọi trực tiếp các cơ chế xử lý mà giao diện người dùng (UI) sử dụng và nhận về dữ liệu có cấu trúc.

"Hai tác nhân nhắm đến cùng một ứng dụng đang chạy: một cái điều khiển UI qua ảnh chụp màn hình và cú nhấp chuột, cái kia gọi trực tiếp các điểm cuối HTTP của ứng dụng," Palash Awasthi, người phụ trách phát triển tại Reflex, giải thích trong một bài đăng trên blog. "Cùng một Claude Sonnet, cùng một tập dữ liệu, cùng một nhiệm vụ. Giao diện là biến số duy nhất."

Kết quả thử nghiệm đáng báo động

Nhiệm vụ được giao cho cả hai tác nhân là: "Tìm khách hàng tên Smith có nhiều đơn hàng nhất, chấp nhận tất cả đánh giá đang chờ duyệt của họ, và đánh dấu đơn hàng gần nhất là đã giao."

Kết quả cho thấy tác nhân API hoàn thành nhiệm vụ chỉ trong 8 lệnh gọi, mất khoảng 20 giây. Nó liệt kê các đánh giá đang chờ, chấp nhận chúng và đánh dấu đơn hàng là đã giao.

Tuy nhiên, tác nhân thị giác lại gặp khó khăn lớn. Mặc dù được hỗ trợ bởi các câu lệnh (prompt) đã được sửa đổi để hoạt động tốt hơn, nó vẫn mất khoảng 17 phút để hoàn thành — thời gian dài hơn đáng kể so với tác nhân API.

Đáng chú ý, tác nhân thị giác chỉ tìm thấy một trong số bốn đánh giá đang chờ vì nó đã không cuộn trang để nhìn thấy ba đánh giá còn lại bị ẩn ở phía dưới màn hình. Điều này chỉ ra rằng việc phân tích và diễn giải trang web về mặt thị giác về cơ bản khó khăn hơn nhiều đối với một mô hình AI so với việc tương tác với các lệnh gọi API.

Chi phí và bài học về Token

Sự khác biệt lớn nhất nằm ở chi phí tính toán. Tác nhân thị giác đã tiêu tốn lượng token (đơn vị tính phí của AI) cao hơn khoảng 45 lần so với tác nhân API để hoàn thành cùng một nhiệm vụ.

Cụ thể, tác nhân thị giác đã tiêu thụ khoảng 500.000 token đầu vào và 38.000 token đầu ra. Trong khi đó, tác nhân API chỉ dùng khoảng 12.150 token đầu vào và 934 token đầu ra.

Theo ước tính của Anthropic, việc xử lý một hình ảnh kích thước 1000x1000 pixel với Claude Sonnet 4.6 tiêu tốn khoảng 1.334 token. Vì mỗi lần tác nhân thị giác "nhìn" màn hình đều yêu cầu xử lý hàng nghìn token, chi phí trở nên cực kỳ đắt đỏ.

Awasthi chỉ ra rằng sự chênh lệch về chi phí phản ánh kiến trúc: các tác nhân thị giác cần phải "nhìn", và việc nhìn thấy là tốn kém.

Đối với các doanh nghiệp, bài học rút ra là rõ ràng: Mặc dù các tác nhân thị giác có thể là cần thiết để tương tác với các ứng dụng mà bạn không kiểm soát (không có quyền truy cập API), nhưng các tác nhân tập trung nội bộ nên nhắm mục tiêu trực tiếp vào các API để tối ưu hóa hiệu suất và tiết kiệm chi phí.

Sử dụng "thị lực" của AI để điều khiển web tốn kém gấp 45 lần so với dùng API

Tác nhân thị giác so với Tác nhân API

Kết quả thử nghiệm đáng báo động

Chi phí và bài học về Token

Bài viết liên quan