Tự động hóa Web với MCP: Xây dựng hạ tầng vững chắc cho AI Agents

Paul Klein từ Browserbase thảo luận về các thách thức của hệ thống phân tán khi mở rộng hạ tầng trình duyệt trên đám mây cho AI. Bài viết đề cập đến việc quản lý đa thuê, bảo mật Chromium bằng Firecracker và sử dụng MCP để biến website thành công cụ cho tác nhân AI.

Trong bài thuyết trình tại QCon, Paul Klein - nhà sáng lập Browserbase - đã chia sẻ cái nhìn sâu sắc về tương lai của phần mềm và vai trò của hạ tầng trình duyệt trong kỷ nguyên AI. Ông chỉ ra rằng chúng ta đang chuyển dịch từ việc lập trình dựa trên các quy tắc cố định sang lập trình với kiến thức và khả năng suy luận, tạo ra các tác nhân AI (AI Agents) có thể tự chủ thực hiện công việc.

Từ phần mềm xác định đến AI Agents

Trước đây, phần mềm hoạt động theo logic xác định: nếu đầu vào là X, đầu ra sẽ luôn là Y. Tuy nhiên, sự ra đời của các mô hình nền tảng (LLM) đã thay đổi hoàn toàn tư duy này. Giờ đây, chúng ta có thể nhúng kiến thức vào phần mềm, nhưng kiến thức thôi là chưa đủ. Để tạo ra giá trị thực tế, phần mềm cần khả năng hành động.

Đây chính là lúc khái niệm AI Agents trở nên quan trọng. Một tác nhân AI được định nghĩa là phần mềm có thể lập kế hoạch để đạt mục tiêu, tự chọn công cụ phù hợp và sử dụng chúng trong một vòng lặp liên tục cho đến khi hoàn thành nhiệm vụ. Vòng lặp này bao gồm: thu thập ngữ cảnh, thực hiện hành động và kiểm tra kết quả.

Trình duyệt: Công cụ phổ quát cho AI

Trong số các công cụ mà một tác nhân AI có thể sử dụng, trình duyệt web đóng vai trò là "công cụ phổ quát". Thay vì yêu cầu các doanh nghiệp thực hiện một cuộc chuyển đổi số AI phức tạp - xây dựng lại toàn bộ ứng dụng cho AI - chúng ta có thể trang bị cho tác nhân chính những công cụ mà con người đang sử dụng: trình duyệt web.

Internet là một kho tàng vô hạn các công cụ dưới dạng website. Cho phép AI truy cập vào trình duyệt nghĩa là trao cho nó khả năng tương tác với hầu hết các dịch vụ số hiện có mà không cần phải viết lại API hay tích hợp thủ công.

Cách AI kiểm soát trình duyệt

Có ba cách chính mà các mô hình AI sử dụng để điều khiển trình duyệt:

Tác nhân dựa trên thị giác (Vision Web Agents): Sử dụng mô hình ngôn ngữ thị giác (vLLM) để phân tích ảnh chụp màn hình trang web. Kỹ thuật phổ biến là "Set-of-Marks", nơi các hộp được vẽ xung quanh các phần tử để mô hình xác định tọa độ cần click.
Tác nhân dựa trên văn bản (Text Web Agents): Sử dụng LLM để phân tích cấu trúc HTML hoặc cây khả năng truy cập (Accessibility Tree/ARIA tags) của trang web. Cách này hiệu quả về mặt token vì mô hình chỉ cần xử lý mã thay vì hình ảnh nặng nề.
Mô hình sử dụng máy tính (Computer-use Models): Đây là lớp cao cấp hơn, kết hợp khả năng suy luận và hành động. Các mô hình này được huấn luyện trên các "quỹ đạo web" (web trajectories) - chuỗi các hành động dài mà con người thực hiện trên web - giúp chúng hiểu rõ quy trình điều hướng phức tạp.

Thách thức về hạ tầng và bảo mật

Việc chạy hàng ngàn phiên trình duyệt trên đám mây cho AI Agents là một bài toán hệ thống phân tán cực kỳ phức tạp. Paul Klein đã đề xuất một kiến trúc gồm 6 lớp: Sandbox, Scheduler, Browser, Protocol, Framework và Model.

Một trong những thách thức lớn nhất là bảo mật. Chromium là mục tiêu tấn công lớn nhất thế giới. Khi cho phép AI truy cập vào bất kỳ trang web nào, rủi ro thực thi mã từ xa (Remote Code Execution - RCE) là hiện hữu.

Để giải quyết vấn đề này, Browserbase sử dụng Firecracker - một công nghệ máy ảo nhỏ (microVM) để tạo ra môi trường sandbox cô lập. Điều này đảm bảo rằng nếu một tác nhân AI truy cập vào một trang web độc hại, mã độc không thể thoát ra khỏi môi trường chứa (container) và ảnh hưởng đến hệ thống chính hoặc dữ liệu của các khách hàng khác (đảm bảo an toàn cho mô hình đa thuê - multi-tenancy).

Model Context Protocol (MCP)

Cuối cùng, bài thuyết trình nhấn mạnh vai trò của Model Context Protocol (MCP). Đây là giao thức giúp kết nối hạ tầng phức tạp với các mô hình AI một cách chuẩn hóa. Thay vì xây dựng các kết nối tùy chỉnh cho từng công cụ, MCP cho phép biến các trang web phức tạp thành các công cụ có thể truy cập được bởi các tác nhân AI một cách dễ dàng và an toàn.

Tương lai của phần mềm không chỉ là những đoạn mã tĩnh, mà là các tác nhân thông minh hoạt động trên nền tảng hạ tầng vững chắc, an toàn và có khả năng tự động hóa web trên quy mô lớn.