Xây dựng AI Agent chuyên sâu mà không cần tốn công vào hạ tầng "Harness"

Bài viết chia sẻ kinh nghiệm chuyển đổi từ việc tự xây dựng AI Agent sang sử dụng nền tảng Hermes mã nguồn mở để tận dụng các tính năng như bộ nhớ, kỹ năng và tự động hóa. Tác giả giới thiệu một API mới giúp các nhà phát triển triển khai Hermes instance dễ dàng, tập trung vào logic nghiệp vụ thay vì hạ tầng.

Đừng tự xây dựng một agent của riêng bạn. Thay vào đó, hãy lưu trữ Hermes và cung cấp cho nó các công cụ, kỹ năng (skills) cũng như system prompt. Chúng tôi đang ra mắt một API giúp quá trình này trở nên cực kỳ đơn giản.

Đối với prismvideos.com, chúng tôi đã phát hành một agent tạo nội dung đa phương tiện được xây dựng dựa trên Vercel AI Agents SDK. Agent của chúng tôi có khả năng hiểu mô hình nào nên đề xuất cho người dùng, có thể tạo hình ảnh và video, cũng như phân tích video để hướng dẫn người dùng cách tái tạo chúng. Nó hoạt động rất tuyệt vời.

Tuy nhiên, đến sự kinh hoàng của tôi, chỉ vài ngày sau, Higgsfield – một đối thủ cạnh tranh và là nhà lãnh đạo trong lĩnh vực tạo nội dung bằng AI – đã ra mắt một agent có tên Supercomputer. Supercomputer sở hữu bộ nhớ quan sát (memory across sessions), các kỹ năng, tự động hóa, một máy tính ảo và hệ thống tệp. Nếu tự phát triển, chúng tôi sẽ phải mất hàng tuần để thêm tất cả các tính năng này. Đáng chú ý là Supercomputer không được xây dựng bằng Vercel AI SDK, Claude Agents SDK hay OpenAI Agents SDK; nó được xây dựng trên Hermes – một agent cá nhân mã nguồn mở với hơn 185k sao trên GitHub tại thời điểm viết bài này.

Tôi từng nghĩ Hermes chỉ là một trào lưu nhất thời dành cho những người đam mê công nghệ (như tôi). Nhưng tôi nhận ra rằng nếu sử dụng Hermes như một nguyên thủy (primitive) cho agent của mình, chúng tôi có thể nhận miễn phí các tính năng như quản lý phiên (bộ nhớ theo phiên và nén dữ liệu), các công cụ tích hợp sẵn (tìm kiếm web, trình duyệt, điều hướng hệ thống tệp), kỹ năng, tự học và tự động hóa. Khách hàng có thể yêu cầu agent của chúng tôi: "Mỗi tuần hãy xem video influencer hoạt động tốt nhất tuần trước và tạo ra năm biến thể khác" – một khoảnh khắc thực sự kỳ diệu.

Chúng tôi đã xóa agent hiện có và triển khai một phiên bản EC2 với máy chủ Hono. Máy chủ này tạo ra một Hermes agent trong container Docker cho mỗi khách hàng. Nó cũng đóng vai trò là reverse proxy để chuyển tiếp tin nhắn giữa ứng dụng của chúng tôi và cổng Hermes. Giờ đây, chúng tôi giao tiếp với Hermes agent của từng người dùng thông qua kết nối WebSocket.

Thay vì phải xây dựng bộ nhớ quan sát, kỹ năng, tự học, tự động hóa và hệ thống tệp bền vững, chúng tôi chỉ cần tập trung vào kỹ thuật liên quan trực tiếp đến prismvideos.com. Chúng tôi có thể cung cấp cho agent system prompt của mình, các công cụ tạo media và xác định mô hình sử dụng thông qua MCP, các tệp kỹ năng (cách tạo video UGC, storyboard, hiệu ứng hình ảnh) và các kết nối (Meta Ads Manager, Google Drive, Resend).

Khi các agent hướng tới người dùng ngày càng cải thiện – như Claude, ChatGPT, Manus – kỳ vọng của khách hàng cũng tăng lên (bao gồm cả đối với phần mềm B2B). Ứng dụng Claude có bộ nhớ, nên giờ đây CEO của tôi cũng muốn tính năng đó. Vậy còn tự học thì sao? Điều hướng (Steering)? Liệu chúng ta có thể thêm vòng lặp Ralph Wiggum không?

Các công ty đang đổ hàng tỷ đô la vào nghiên cứu và phát triển các khung xương (harness) cho agent. Tôi không nghi ngờ gì rằng sẽ có một khung xương agent mới xuất hiện sau Hermes với tính năng mà mọi người mong muốn (dường như xu hướng mới hiện nay là vòng lặp học tập tích hợp sẵn của Hermes). Rất khó có khả năng một startup AI agent trở nên giàu có bằng cách tạo ra khung xương tốt nhất cho một trường hợp sử dụng cụ thể. Nếu có gì, họ chỉ tự đặt mình vào rủi ro rằng một đối thủ sẽ tung ra một agent hoàn thiện hơn khi khung xương tiếp theo xuất hiện. Các startup AI agent nhiều khả năng sẽ tạo ra giá trị khác biệt bằng cách tích hợp với dữ liệu độc quyền của khách hàng và học hỏi sở thích của họ.

Agent là nguyên thủy mới. Các khung agent hiện tại yêu cầu nhà phát triển phải thiết lập: quản lý phiên (trong một số trường hợp), công cụ (trong một số trường hợp), bộ nhớ, tự học, tự động hóa, hệ thống tệp bền vững, triển khai container hoặc sandbox, kỹ năng, máy chủ MCP.

Nhưng từ một đến bảy đều là một phần của bất kỳ ứng dụng agent nào.

Bằng cách tạo lập các phiên Hermes theo chương trình, nhà phát triển nhận được cả agent và hạ tầng chỉ trong một lệnh gọi API duy nhất:

POST /v1/deployments Authorization: Bearer $PRISM_API_KEY Content-Type: application/json

{ "customer_id": "cus_123", "name": "Acme Creative Agent", "runtime": "hermes", "model": "anthropic/claude-sonnet-4.5", "system_prompt": "You are Acme's media generation agent. Help the user plan, create, and iterate on high-performing short-form videos.", "sandbox": { "enabled": true, "type": "docker", "persistent_filesystem": true }, "mcp_servers": [ { "name": "prism-media", "url": "https://api.prismvideos.com/mcp", "tools": [ "search_models", "get_model_schema", "get_pricing", "generate_image", "generate_video", "generate_audio" ] } ], "skills": [ { "name": "ugc-video-creation", "source": "file", "path": ".prism/skills/ugc-video-creation/SKILL.md" }, { "name": "storyboarding", "source": "inline", "content": "---\nname: storyboarding\ndescription: Create shot-by-shot storyboards for short-form videos\n---\n# Storyboarding\n..." }, { "name": "social-media-visual-effects", "source": "url", "url": "https://example.com/skills/social-media-visual-effects/SKILL.md" } ], "secrets": { "META_ADS_TOKEN": "sec_meta_ads_token", "GOOGLE_DRIVE_TOKEN": "sec_google_drive_token" }, "features": { "memory": true, "dreaming": true, "automations": true, "steering": true, "filesystem_webhooks": true } }

Response:

{ "deployment_id": "dep_7xK9s2", "customer_id": "cus_123", "runtime": "hermes", "status": "ready", "model": "anthropic/claude-sonnet-4.5", "thread_id": "thr_default_8a1", "filesystem": { "workspace_path": "/workspace", "persistent": true }, "events": { "transport": "sse", "url": "https://api.prismagents.com/v1/deployments/dep_123/events" } }

Chỉ cần mang theo một system prompt, các kỹ năng, công cụ và kết nối, bạn sẽ nhận được một điểm cuối để trò chuyện với agent qua SSE.

Có rất nhiều công việc vặt (schleps) cần thiết để tạo ra một agent mà mọi người thực sự sử dụng. Kỹ thuật xây dựng khung xương (harness-engineering) không nên là một trong số đó. Sự nhận thức tương tự đã dẫn chúng tôi tạo ra API của mình có lẽ cũng là động lực khiến LangChain ra mắt Managed Deep Agents và Claude ra mắt Managed Agents. LangChain Managed Deep Agents là một runtime được lưu trữ để triển khai các AI agent. Nhà phát triển mang theo system prompt, công cụ MCP, kỹ năng và định nghĩa subagent để nhận về một agent có thể trò chuyện. Tương tự, Claude Managed Agents cung cấp cho nhà phát triển cả agent và hạ tầng trong một lệnh gọi API duy nhất.

LangChain Managed Deep Agents là một sự trừu tượng hóa mạnh mẽ nhưng không cung cấp tính năng tự động hóa, không có tự học tích hợp sẵn và không có mục tiêu bền vững (vòng lặp Ralph Wiggum).

Claude Managed Agents có tính năng tự học trong bản xem trước nghiên cứu, nhưng tương tự cũng không cung cấp tự động hóa, mục tiêu bền vững hay chấp nhận đầu vào video qua API (một hạn chế của các mô hình của họ).

Dưới đây là chi tiết so sánh giữa API của chúng tôi và các sản phẩm của họ:

Khả năng	Managed Hermes Agents	LangChain Managed Deep Agents	Claude Managed Agents
Không bị khóa nhà cung cấp	✓	✓	✗
Quản lý phiên	✓	✓	✓
Agent + hạ tầng trong 1 API call	✓	✓	✓
Bộ nhớ quan sát	✓	✓	✓
Công cụ tích hợp: web, browser, file	✓	✓	✓
Hệ thống tệp bền vững	✓	✓	✓
Đầu vào hình ảnh & video	✓	✗	✗
Cách ly theo container	✓	✓	✓
Quản lý thông tin xác thực	✓	✓	✓
Tự động hóa	✓	✗	✗
Subagents	✓	✓	✓
Dreaming (Mơ mộng)	✓	✗	✓
Vòng lặp Ralph Wiggum	✓	✗	✗
Steering (Điều hướng)	✓	✗	✓

Nếu bạn là một nhà phát triển có sản phẩm trò chuyện hướng tới khách hàng, hãy liên hệ với tôi qua rajit [at] prismvideos [dot] com. Chúng tôi rất sẵn lòng xây dựng agent cho bạn.

Cảm ơn Alex Liu, Land Tantichot, Mom, Dad, Vivek Hazari, Dan Gackle, Daniel DiPietro và Stepan Parunashvili đã đọc các bản nháp của bài viết này.

Xây dựng AI Agent chuyên sâu mà không cần tốn công vào hạ tầng "Harness"

Bài viết liên quan