Airbyte Agents: Tầng dữ liệu thống nhất giúp AI Agents truy cập đa nguồn hiệu quả hơn

Michel, CEO của Airbyte, giới thiệu Airbyte Agents – một lớp dữ liệu trung gian giúp các tác nhân AI truy xuất thông tin từ nhiều nguồn dễ dàng hơn. Giải pháp này giải quyết các vấn đề về kết nối API phức tạp, giúp giảm đáng kể lượng token tiêu thụ và cải thiện độ chính xác của câu trả lời.

Michel, đồng sáng lập và CEO của Airbyte, đã công bố ra mắt Airbyte Agents – một lớp dữ liệu thống nhất giúp các tác nhân AI (AI agents) khám phá thông tin và thực hiện hành động trên nhiều hệ thống vận hành khác nhau.

Trong sáu năm qua, Airbyte đã tập trung xây dựng các trình kết nối dữ liệu (data connectors). Giờ đây, họ áp dụng kinh nghiệm đó để giải quyết một bài toán nan giải trong kỷ nguyên AI: làm thế nào để các tác nhân AI có thể truy cập dữ liệu từ các công cụ như Slack, Salesforce hay Linear một cách hiệu quả.

Thách thức về kết nối API

Khi các tác nhân AI bước vào các quy trình làm việc thực tế, chúng cần quyền truy cập vào nhiều công cụ phần mềm khác nhau. Điều này đồng nghĩa với việc phải xử lý một khối lượng công việc khổng lồ liên quan đến API plumbing: xác thực, phân trang, bộ lọc, xử lý lược đồ (schema) và khớp các thực thể (entities) chéo giữa các hệ thống.

Hầu hết các giao thức MCP (Model Context Protocol) hiện nay không giải quyết triệt để vấn đề này. Chúng thường chỉ là các lớp bao bọc mỏng (thin wrappers) quanh API, khiến các tác nhân AI kế thừa các hạn chế của API gốc. Một vấn đề sâu xa hơn là API thường giả định rằng người dùng đã biết chính xác cần truy vấn cái gì (các endpoint, Object ID, trường dữ liệu), trong khi các tác nhân AI thường bắt đầu từ bước trước đó: chúng cần khám phá dữ liệu quan trọng trước khi có thể bắt đầu suy luận.

Giải pháp: Airbyte Agents và Context Store

Airbyte Agents được xây dựng để đóng vai trò là một lớp ngữ cảnh (context layer) giữa các tác nhân AI và toàn bộ dữ liệu của doanh nghiệp. Trái tim của giải pháp này là Context Store – một chỉ mục dữ liệu được tối ưu hóa cho việc tìm kiếm theo phong cách tác nhân, được nạp dữ liệu bởi các trình kết nối sao chép của Airbyte.

Cách tiếp cận này mang lại cho các tác nhân AI một phương pháp có cấu trúc để khám phá dữ liệu, đồng thời vẫn cho phép chúng đọc và ghi trực tiếp vào hệ thống nguồn khi cần thiết.

Hiệu quả thực tế và Benchmark

Michel chia sẻ một ví dụ thực tế về một tác nhân AI được yêu cầu trả lời câu hỏi: "Khách hàng nào có nguy cơ rời đi trong quý này?". Tác nhân này đã thực hiện tới 47 bước, chủ yếu là các cuộc gọi API, để tìm tài khoản, ánh xạ tới khách hàng, tìm vé hỗ trợ... Kết quả là câu trả lời chậm chạp và không chính xác.

Airbyte Agents giải quyết vấn đề này bằng cách không bắt tác nhân phải lắp ráp tất cả ngữ cảnh tại thời điểm chạy (runtime).

Để chứng minh hiệu quả, Michel đã xây dựng một bộ kiểm chuẩn (benchmark harness) công khai so sánh Airbyte Agent MCP với các MCP của nhà cung cấp khác. Ông sử dụng mức tiêu thụ token làm thước đo cho hiệu suất làm việc của tác nhân.

Kết quả cho thấy sự cải thiện đáng kể:

Gong: Giảm tới 80% lượng token tiêu thụ so với MCP của họ.
Zendesk: Giảm tới 90% lượng token.
Linear: Giảm tới 75% lượng token.
Salesforce: Giảm 16% lượng token (do Salesforce có SOQL hỗ trợ tìm kiếm tốt sẵn).

Mã nguồn của bộ kiểm chuẩn đã được công khai trên GitHub để cộng đồng kiểm chứng và đóng góp.

Dự án vẫn đang ở giai đoạn đầu phát triển và đội ngũ Airbyte rất mong muốn nhận được phản hồi từ cộng đồng những người đang xây dựng tác nhân AI, đặc biệt là về cách họ xử lý việc lập chỉ mục dữ liệu và khớp thực thể giữa các hệ thống.

Airbyte Agents: Tầng dữ liệu thống nhất giúp AI Agents truy cập đa nguồn hiệu quả hơn

Thách thức về kết nối API

Giải pháp: Airbyte Agents và Context Store

Hiệu quả thực tế và Benchmark

Bài viết liên quan