Sử dụng Vision Agent đắt hơn API có cấu trúc gấp 45 lần

Một bài benchmark mới so sánh hiệu suất và chi phí giữa Vision Agent (tương tác qua giao diện) và API Agent (gọi trực tiếp mã nguồn). Kết quả cho thấy phương pháp Vision không chỉ kém ổn định mà còn tốn kém gấp 45 lần về chi phí tính toán.

Trong bối cảnh các tác nhân AI (AI agents) ngày càng phổ biến, nhiều nhóm phát triển đang chọn giải pháp "Vision Agent" để tự động hóa các tác vụ trên các ứng dụng web hiện có mà không cần xây dựng lại API. Tuy nhiên, sự tiện lợi này đi kèm với cái giá phải trả rất đắt.

Một bài kiểm tra chuẩn (benchmark) gần đây đã so sánh trực tiếp hai cách thức vận hành một ứng dụng: một bên là Vision Agent sử dụng trình duyệt (thông qua hình ảnh và thao tác chuột), và bên kia là API Agent gọi trực tiếp các endpoint HTTP. Kết quả cho thấy sự chênh lệch khổng lồ về hiệu suất và chi phí.

So sánh hiệu suất giữa Vision Agent và API

Tại sao Vision Agent lại phổ biến?

Vision Agent trở thành lựa chọn mặc định cho phép AI điều hành các ứng dụng web không cung cấp API. Lựa chọn thay thế là viết một lớp bọc MCP hoặc REST cho từng ứng dụng, nhưng đây là một dự án kỹ thuật khổng lồ đối với các đội ngũ có hơn 20 công cụ nội bộ.

Hầu hết các đội ngũ chọn Vision Agent không phải vì nó tốt hơn, mà vì chi phí xây dựng API thay thế quá cao. Tuy nhiên, chi phí vận hành của phương pháp Vision thường bị coi là cố định và ít được đo lường kỹ lưỡng. Chúng tôi đã quyết định đưa ra con số cụ thể cho cái giá đó.

Thiết lập bài kiểm tra

Ứng dụng dùng để thử nghiệm là một bảng điều khiển quản trị (admin panel) mô phỏng việc quản lý khách hàng, đơn hàng và đánh giá. Hai tác nhân AI cùng nhắm đến một ứng dụng đang chạy:

Đường dẫn A (Vision Agent): Sử dụng Claude Sonnet để điều khiển giao diện người dùng (UI) thông qua browser-use 0.12. Nó chụp màn hình và thực hiện các cú nhấp chuột.
Đường dẫn B (API Agent): Sử dụng Claude Sonnet với chế độ tool-use, gọi trực tiếp các trình xử lý HTTP mà UI gọi. Thay vì nhìn trang web được hiển thị, tác nhân nhận được phản hồi dữ liệu có cấu trúc.

Nhiệm vụ được giao là: Tìm khách hàng tên "Smith" có nhiều đơn hàng nhất, định vị đơn hàng đang chờ xử lý gần nhất, duyệt tất cả các đánh giá đang chờ của họ và đánh dấu đơn hàng là đã giao.

Vision Agent thất bại trong nhiệm vụ ban đầu

Khi được đưa ra cùng một yêu cầu gồm sáu câu, API Agent đã hoàn thành nhiệm vụ chỉ trong 8 lượt gọi. Nó liệt kê các đánh giá, lọc theo trạng thái chờ duyệt, chấp nhận từng cái và cập nhật đơn hàng.

Ngược lại, Vision Agent chỉ tìm thấy một trong số bốn đánh giá đang chờ, duyệt nó và chuyển sang bước tiếp theo. Nó không bao giờ thực hiện phân trang (pagination). Ba đánh giá còn lại nằm dưới phần hiển thị của trang và tác nhân không có tín hiệu để cuộn xuống tìm kiếm.

Đây không phải là lỗi của mô hình AI. Vision Agent đang suy luận dựa trên một trang web được hiển thị (rendered page) và không có tín hiệu cho thấy trang đó chưa hiển thị tất cả dữ liệu. Trong khi đó, API Agent nhận được phản hồi đầy đủ từ trình xử lý, bao gồm cả thông tin "trang 1 của 4 với 50 kết quả mỗi trang".

Khi có hướng dẫn chi tiết, nó mới thành công

Để so sánh công bằng, chúng tôi đã viết lại lời nhắc (prompt) cho Vision Agent thành một hướng dẫn sử dụng UI chi tiết, bao gồm 14 bước chỉ định từng mục thanh bên, tab và trường biểu mẫu cần tương tác.

Với hướng dẫn này, Vision Agent đã hoàn thành nhiệm vụ. Tuy nhiên, nó cũng chạy trong mười bốn phút và tiêu thụ khoảng nửa triệu token đầu vào.

Vision Agent đang cố gắng hiểu giao diện

Chính bản thân hướng dẫn 14 bước này là một phát hiện quan trọng. Mỗi hướng dẫn là công việc kỹ thuật không được tính vào chi phí token nhưng đại diện cho chi phí thực. Bất kỳ ai triển khai Vision Agent cho công cụ nội bộ đều phải viết lời nhắc ở mức độ cụ thể này hoặc chấp nhận việc tác nhân sẽ bỏ sót công việc một cách thầm lặng.

Kết quả chi tiết: Sự chênh lệch khổng lồ

Chúng tôi đã chạy đường dẫn API 5 lần và đường dẫn Vision 3 lần. Kết quả trung bình cho thấy sự chênh lệch rõ rệt:

Số bước thực hiện: Vision Agent cần 53 bước (dao động lớn), trong khi API Agent chỉ cần 8 bước cố định.
Thời gian thực thi: Vision Agent mất trung bình 1003 giây (khoảng 17 phút), API Agent chỉ mất 19,7 giây.
Chi phí Token (Input): Vision Agent tiêu thụ 550.976 token, API Agent chỉ tiêu thụ 12.151 token.

Điều đáng ngạc nhiên nhất là độ biến thiên (variance) của kết quả Vision. Thời gian chạy dao động từ 749s đến 1257s, và số token dao động từ 407k đến 751k. Vòng lặp "chụp màn hình - suy luận - nhấp chuột" có tính ngẫu nhiên cao khiến một lần chạy không đại diện cho ước tính chi phí.

Ngược lại, đường dẫn API không có sự biến thiên nào. Sonnet thực hiện chính xác 8 lượt gọi tool trong mọi lần thử.

Khoảng cách cấu trúc

Sự chênh lệch về chi phí xuất phát trực tiếp từ kiến trúc. Một tác nhân phải "nhìn" mới có thể "hành động" sẽ luôn phải trả tiền cho việc nhìn đó, bất kể mô hình tốt đến đâu.

Cả hai tác nhân đều đi qua cùng một logic ứng dụng, đều lọc, phân trang và cập nhật dữ liệu theo cùng một cách. Sự khác biệt nằm ở những gì chúng đọc ở mỗi bước:

Vision Agent: Đọc điểm ảnh (pixels) và phải hiển thị mọi trạng thái trung gian để diễn giải nó. Mỗi lần hiển thị là một ảnh chụp màn hình là hàng ngàn token đầu vào.
API Agent: Đọc phản hồi có cấu trúc từ các trình xử lý, vốn đã chứa dữ liệu mà UI hiển thị.

Các mô hình tốt hơn có thể giảm chi phí trên mỗi bước, nhưng chúng không thể giảm số lượng bước, vì số bước được quyết định bởi giao diện người dùng.

Khi nào nên dùng API?

Bài kiểm tra này khả thi nhờ vào Reflex 0.9, bao gồm một plugin tự động tạo các endpoint HTTP từ trình xử lý sự kiện của ứng dụng. Điều này làm giảm chi phí kỹ thuật của việc xây dựng bề mặt API xuống gần bằng không.

Câu hỏi thú vị là điều gì trở nên khả thi khi chi phí kỹ thuật của API giảm xuống mức 0. Vision Agent vẫn là công cụ đúng đắn cho các ứng dụng bạn không kiểm soát: sản phẩm SaaS của bên thứ ba, hệ thống kế thừa (legacy systems), hoặc bất kỳ thứ gì bạn không thể sửa đổi.

Nhưng đối với các công cụ nội bộ do chính bạn xây dựng, phép toán giờ đây đã chỉ ra một hướng khác: Hãy ưu tiên API có cấu trúc thay vì dựa vào thị giác của AI.

Sử dụng Vision Agent đắt hơn API có cấu trúc gấp 45 lần

Tại sao Vision Agent lại phổ biến?

Thiết lập bài kiểm tra

Vision Agent thất bại trong nhiệm vụ ban đầu

Khi có hướng dẫn chi tiết, nó mới thành công

Kết quả chi tiết: Sự chênh lệch khổng lồ

Khoảng cách cấu trúc

Khi nào nên dùng API?

Bài viết liên quan