LangSmith Engine tự động hóa quy trình sửa lỗi cho AI Agent, nhưng doanh nghiệp đa mô hình vẫn cần một lớp trung tính

LangSmith Engine mới ra mắt giúp tự động hóa quy trình phát hiện và khắc phục sự cố cho các tác nhân AI (AI Agent), từ việc chẩn đoán nguyên nhân gốc rễ đến đề xuất bản vá mã. Dù vậy, khi các ông lớn như OpenAI và Anthropic cũng tích hợp tính năng tương tự, các doanh nghiệp sử dụng nhiều mô hình AI vẫn ưu tiên các giải pháp trung lập để đảm bảo tính linh hoạt và khả năng kiểm toán thống nhất.

Các doanh nghiệp đang xây dựng và triển khai các tác nhân AI (AI Agent) đang gặp phải một vấn đề nan giải: các kỹ sư của họ mất quá nhiều thời gian để phát hiện ra rằng một tác nhân đã mắc lỗi, và vòng lặp sai sót này tiếp diễn dai dẳng, đặc biệt là khi không có con người giám sát từng bước.

LangSmith, nền tảng giám sát và đánh giá từ LangChain, đã tung ra một tính năng mới trong bản beta công cộng có thể giúp vấn đề này trở nên dễ quản lý hơn. LangSmith Engine tự động hóa toàn bộ chuỗi quy trình bằng cách phát hiện các lỗi trong môi trường sản xuất, chẩn đoán nguyên nhân gốc rễ dựa trên mã nguồn trực tiếp, soạn thảo bản sửa lỗi và ngăn chặn sự hồi quy (regression). Tất cả được thực hiện chỉ trong một quy trình tự động duy nhất.

LangSmith Engine mang lại cho các kỹ sư AI một con đường nhanh hơn để phân loại và xử lý sự cố, nhưng nó bước vào một thị trường đang cạnh tranh khốc liệt khi Anthropic, OpenAI và Google đều đang tích hợp các khả năng quan sát và đánh giá vào chính nền tảng của họ.

LangSmith Engine tập trung vào việc xử lý lỗi

LangChain cho biết trong một bài đăng trên blog rằng chu kỳ phát triển tác nhân điển hình bắt đầu bằng việc theo dõi (tracing) tác nhân để hiểu hành động của nó, sau đó xác định các khoảng trống, thay đổi các câu lệnh (prompts) và công cụ, đồng thời tạo ra các tập dữ liệu thực tế (ground-truth datasets). Các nhà phát triển sau đó chạy thử nghiệm và kiểm tra sự hồi quy trước khi triển khai tác nhân.

Vấn đề nằm ở chỗ, khách hàng thường gặp khó khăn khi việc xem xét các dấu vết (trace review) không làm nổi bật các mẫu lỗi, việc lặp lại lỗi trở nên khó nhận diện và không có bộ đánh giá mục tiêu nào để bắt giữ cùng một vấn đề khi nó lặp lại trong môi trường sản xuất.

LangSmith Engine hoạt động bằng cách giám sát các dấu vết sản xuất cho một số loại tín hiệu, bao gồm "lỗi rõ ràng, thất bại của bộ đánh giá trực tuyến, bất thường trong dấu vết, phản hồi tiêu cực của người dùng và các hành vi bất thường như người dùng hỏi những câu hỏi mà tác nhân không được xây dựng để trả lời", theo bài đăng trên blog.

Sau đó, Engine sẽ đọc mã nguồn trực tiếp, tìm ra nguyên nhân gây lỗi và soạn thảo một yêu cầu kéo (pull request) trước khi đề xuất một bộ đánh giá tùy chỉnh cho mẫu lỗi cụ thể đó. Con người chỉ can thiệp ở bước phê duyệt cuối cùng.

Công cụ này được xây dựng dựa trên cơ sở hạ tầng theo dõi và đánh giá hiện có của LangSmith và cũng hoạt động với kết quả đánh giá của doanh nghiệp.

Khác với các công cụ quan sát như Weights & Biases, Arize Phoenix và Honeyhive, LangSmith Engine tự động hóa toàn bộ chuỗi — từ phát hiện lỗi, chẩn đoán nguyên nhân gốc rễ, đến soạn thảo bản sửa lỗi — và chỉ đưa con người vào tham gia ở bước phê duyệt.

Các nhà cung cấp mô hình tích hợp đánh giá vào nền tảng

Mặc dù LangSmith đã xác định vòng lặp đánh giá này là nhu cầu của nhiều doanh nghiệp, nhưng Engine ra mắt vào thời điểm mà các nhà cung cấp lớn hơn bắt đầu cung cấp các công cụ quan sát ngay trong nền tảng của họ. Điều này có nghĩa là các doanh nghiệp có thể chọn sử dụng một nền tảng đầu cuối (end-to-end) thay vì thêm LangSmith Engine vào quy trình làm việc hiện có của họ.

Claude Managed Agents của Anthropic kết hợp việc triển khai, đánh giá và điều phối tác nhân thành một bộ công cụ duy nhất. Frontier của OpenAI cũng cung cấp một nền tảng đầu cuối tương tự để xây dựng, quản trị và đánh giá các tác nhân doanh nghiệp — mặc dù cả hai đều vấp phải sự hoài nghi từ các doanh nghiệp lo ngại về việc phụ thuộc vào một nhà cung cấp duy nhất.

Tuy nhiên, các chuyên gia thực tế chỉ ra rằng không phải ai cũng muốn đưa toàn bộ việc đánh giá và quan sát vào một nền tảng duy nhất.

Leigh Coney, người sáng lập và tư vấn chính tại Workwise Solutions, cho biết với VentureBeat rằng khả năng quan sát của bên thứ ba là mặc định cho nhiều doanh nghiệp.

"Một quỹ mà tôi làm việc cùng chạy Claude để phân tích và GPT cho một quy trình làm việc riêng biệt. Nếu khả năng quan sát nằm trong công cụ của từng nhà cung cấp, bây giờ bạn sẽ có hai hệ thống không thể nói chuyện với nhau. Đội tuân thủ của bạn không thể tạo ra một nhật ký kiểm toán thống nhất", ông nói. "Vì vậy, khả năng quan sát của bên thứ ba vẫn tồn tại vì đa mô hình (multi-model) đã là mặc định trong doanh nghiệp, và cần phải có một ai đó ngồi chéo giữa các nhà cung cấp".

Jessica Arredondo Murphy, CEO và đồng sáng lập của True Fit, cho biết các nền tảng độc lập như LangSmith phải chứng minh cho các doanh nghiệp thấy rằng họ có thể "trả lời câu hỏi dài hạn về việc liệu họ có trở thành lớp vận hành đa mô hình cho chất lượng và độ tin cậy hay không".

"Các doanh nghiệp không đang gộp tất cả vào các công cụ của nhà cung cấp mô hình đầu tiên nhanh chóng như những gì nhà cung cấp mong muốn. Những gì tôi thấy là một sự chia sẻ thực dụng: các nhóm sẽ sử dụng công cụ của nhà cung cấp để tích hợp nhanh và gỡ lỗi giai đoạn đầu, nhưng ngay khi họ quan tâm đến độ tin cậy sản xuất, quản trị và sự linh hoạt dài hạn, họ có xu hướng引入 một lớp trung lập hơn để quan sát và đánh giá", bà nói.

LangSmith Engine hiện đã có sẵn trong bản beta công cộng. Các nhóm có thể kết nối một dự án theo dõi, tùy chọn kết nối kho lưu trữ mã nguồn của họ, và Engine sẽ bắt đầu tự động đưa ra các vấn đề từ các dấu vết sản xuất.

LangSmith Engine tự động hóa quy trình sửa lỗi cho AI Agent, nhưng doanh nghiệp đa mô hình vẫn cần một lớp trung tính

LangSmith Engine tập trung vào việc xử lý lỗi

Các nhà cung cấp mô hình tích hợp đánh giá vào nền tảng

Bài viết liên quan