Browser Harness: Khi LLM tự viết code để làm chủ mọi tác vụ trên trình duyệt

Browser Harness là một giải pháp đột phá loại bỏ các rào cản của khung trình duyệt truyền thống, cho phép LLM truy cập trực tiếp vào Chrome DevTools Protocol. Điểm đặc biệt nhất là khả năng tự sửa lỗi và tự viết các hàm hỗ trợ còn thiếu ngay trong quá trình làm việc, biến AI thành một tác nhân thực sự tự chủ.

Trong thế giới phát triển ứng dụng AI, việc điều khiển trình duyệt tự động thường gặp phải vô số khó khăn do các ràng buộc khắt khe của các framework hiện có. Browser Harness ra đời với triết lý hoàn toàn khác: thay vì bọc Chrome trong hàng ngàn dòng code heuristic để xử lý các trường hợp ngoại lệ, nó trao cho Mô hình Ngôn ngữ Lớn (LLM) quyền truy cập trực tiếp và tối đa vào Chrome DevTools Protocol (CDP).

Browser Harness Concept

Thay vì cung cấp một bộ công cụ cố định, Browser Harness chỉ cung cấp một kết nối websocket duy nhất đến trình duyệt và một tệp helpers.py cơ bản. Nếu LLM cần một công cụ cụ thể mà chưa được định nghĩa, nó hoàn toàn có thể tự viết code để thêm vào.

Khoảnh khắc "ma thuật" của tự lập trình

Một ví dụ điển hình minh chứng cho sức mạnh của phương pháp này là khả năng tự phục hồi của hệ thống. Trong quá trình thử nghiệm, nhóm phát triển đã quên không triển khai hàm upload_file. Khi tác nhân AI cần tải lên một tệp, nó đã tự động quét helpers.py, nhận ra hàm này đang thiếu, và tự viết một hàm mới sử dụng lệnh thô DOM.setFileInputFiles từ CDP.

"Chúng tôi chỉ nhận ra điều này khi kiểm tra git diff sau đó. Đây thực sự là một khoảnh khắc ma thuật cho thấy LLM đã mạnh mẽ đến mức nào."

Điều này giải quyết triệt để vấn đề "silent failure" (lỗi thầm lặng) thường thấy ở các công cụ như Playwright MCP hay Browser-use CLI. Ở những công cụ đó, nếu hàm click() trả về kết quả thành công nhưng trên thực tế trang web không phản ứng, LLM sẽ bị lạc lối với một mô hình thế giới sai lệch. Với Browser Harness, LLM hiểu rõ cơ chế hoạt động của công cụ, giúp nó có ngữ cảnh hoàn hảo để tự sửa sai.

Hiệu suất và khả năng mở rộng

Browser Harness đã chứng minh khả năng vượt trội của mình qua các thử nghiệm thách thức. Nó có thể chơi cờ Stockfish ở mức độ cao, thiết lập kỷ lục thế giới trong game Tetris, hay thậm chí tự tìm cách vẽ hình trái tim bằng JavaScript.

Setup Remote Debugging

Toàn bộ hệ thống cực kỳ gọn nhẹ, chỉ khoảng 592 dòng Python, bao gồm:

install.md: Hướng dẫn cài đặt và khởi tạo trình duyệt.
SKILL.md: Hướng dẫn sử dụng hàng ngày.
helpers.py: Các hàm công cụ ban đầu (có thể được LLM chỉnh sửa).
daemon.py: Quản lý kết nối CDP websocket.

Cách cài đặt và triển khai

Việc cài đặt Browser Harness vô cùng đơn giản, đặc biệt nếu bạn đang sử dụng Claude Code hoặc Codex. Bạn chỉ cần nhập lệnh:

Set up https://github.com/browser-use/browser-harness for me.

Hệ thống cũng cung cấp tầng trình duyệt từ xa (remote browsers) miễn phí với 3 trình duyệt đồng thời, hỗ trợ proxy và giải quyết captcha, rất phù hợp cho việc triển khai các tác nhân con hoặc ẩn danh.

Với Browser Harness, tương lai của các tác nhân web không còn là việc lập trình sẵn các kịch bản cứng nhắc, mà là cung cấp cho AI đủ kiến thức và công cụ để nó tự "học" và thích nghi với mọi trang web.

Browser Harness: Khi LLM tự viết code để làm chủ mọi tác vụ trên trình duyệt

Khoảnh khắc "ma thuật" của tự lập trình

Hiệu suất và khả năng mở rộng

Cách cài đặt và triển khai

Bài viết liên quan