Grab xây dựng hệ thống đa tác nhân AI tự động hóa hỗ trợ kỹ thuật: Một nghiên cứu điển hình

Đội ngũ dữ liệu trung tâm của Grab đã phát triển một hệ thống AI đa tác nhân nhằm tự động hóa các tác vụ hỗ trợ kỹ thuật lặp đi lặp lại trên nền tảng kho dữ liệu. Bằng cách tách biệt quy trình điều tra và cải thiện, hệ thống giúp giảm tải vận hành và tăng tốc độ xử lý vấn đề. Giải pháp này cho phép các kỹ sư chuyển trọng tâm từ việc xử lý sự cố khẩn cấp sang phát triển nền tảng giá trị cao hơn.

Đội ngũ Kho dữ liệu Phân tích (ADW) của Grab đã giới thiệu một hệ thống AI đa tác nhân để tự động hóa các quy trình hỗ trợ kỹ thuật trên nền tảng dữ liệu quy mô lớn của mình. Mục tiêu là giảm thiểu các công việc vận hành lặp lại và nâng cao hiệu quả giải quyết vấn đề. Hệ thống này được thiết kế để xử lý các yêu cầu kỹ thuật nội bộ, bao gồm khắc phục sự cố kho dữ liệu, gỡ lỗi SQL và hỗ trợ nền tảng, đồng thời giúp các kỹ sư tập trung vào các công việc phát triển có giá trị cao hơn.

Nền tảng ADW hiện hỗ trợ hơn 1.000 người dùng nội bộ và quản lý hơn 15.000 bảng dữ liệu, đóng vai trò là hạ tầng phân tích cốt lõi trong hệ sinh thái của Grab. Khi mức sử dụng tăng lên, đội ngũ kỹ thuật nhận thấy một phần lớn nỗ lực vận hành bị tiêu hao vào các tác vụ hỗ trợ lặp đi lặp lại và các cuộc điều tra đặc thù, làm hạn chế thời gian dành cho việc cải thiện nền tảng và thiết kế hệ thống.

Sneh Agrawal, Trưởng bộ phận Phân tích tại Grab, đã chia sẻ trên LinkedIn rằng đội ngũ Dữ liệu Trung tâm đang tận dụng hệ thống đa tác nhân để tự động hóa công việc vận hành lặp lại, lấy lại hàng trăm giờ kỹ thuật mỗi tháng. Sự thay đổi này giúp giải phóng băng thông kỹ thuật quan trọng và tạo điều kiện chuyển đổi từ việc "chữa cháy" phản ứng sang xây dựng hệ thống có giá trị cao hơn.

Kiến trúc hệ thống đa tác nhân của Grab

Kiến trúc và Quy trình làm việc

Để giải quyết vấn đề này, đội ngũ đã triển khai kiến trúc đa tác nhân chia các yêu cầu kỹ thuật thành hai quy trình làm việc chính: điều tra (investigation) và cải thiện (enhancement). Quy trình điều tra được thiết kế cho các tác vụ chẩn đoán như phân tích truy vấn, truy xuất nhật ký, tra cứu lược đồ và tóm tắt vấn đề. Trong khi đó, quy trình cải thiện tập trung vào tạo ra các kết quả có thể hành động, bao gồm thay đổi mã, sửa lỗi SQL và tạo yêu cầu hợp nhất tự động để xem xét.

Hệ thống được điều phối bằng công cụ quy trình làm việc dựa trên LangGraph kết hợp với các dịch vụ FastAPI để điều phối định tuyến, thực thi công cụ và quản lý trạng thái giữa các tác nhân. Các yêu cầu được phân loại trước, sau đó định tuyến đến các tác nhân chuyên biệt chịu trách nhiệm cho các nhiệm vụ như truy xuất ngữ cảnh, tìm kiếm mã hoặc tạo giải pháp. Mỗi tác nhân hoạt động với trách nhiệm bị giới hạn để giảm tính mơ hồ và cải thiện tính dự đoán của đầu ra.

Quy trình làm việc của các tác nhân với Supervisor

Theo các kỹ sư của Grab, việc tách biệt đường dẫn điều tra và cải thiện đã giúp giảm độ phức tạp trong lý luận của tác nhân và cải thiện độ tin cậy trong các quy trình sản xuất.

Tối ưu hóa công cụ và An toàn

Một quyết định kiến trúc quan trọng là sự hợp nhất hệ sinh thái công cụ. Ban đầu, hệ thống tiếp xúc với hơn 30 công cụ nội bộ khác nhau trên các hệ thống truy cập dữ liệu, ghi nhật ký và mã. Sau đó, số lượng này được giảm xuống một bộ công cụ được tuyển chọn nhỏ hơn để cải thiện tính bảo trì và giảm việc lựa chọn công cụ không thể đoán trước bởi các tác nhân. Lớp công cụ bao gồm thực thi SQL được kiểm soát, truy cập siêu dữ liệu, hệ thống truy xuất nhật ký và tích hợp với quy trình làm việc dựa trên Git để quản lý thay đổi.

An toàn và quản trị cũng được tích hợp vào thiết kế hệ thống. Việc thực thi SQL bị hạn chế thông qua các lớp xác thực, và việc xử lý dữ liệu nhạy cảm bao gồm các cơ chế phát hiện và giảm thiểu rủi ro lộ thông tin. Ngoài ra, tất cả các quy trình cải thiện tạo ra thay đổi mã đều yêu cầu sự xem xét của con người (human-in-the-loop) trước khi triển khai, đảm bảo rằng các đầu ra tự động vẫn chịu sự giám sát của kỹ thuật.

Quản lý ngữ cảnh nổi lên là một thách thức kỹ thuật đáng kể. Lý luận đa bước của tác nhân yêu cầu duy trì trạng thái liên quan qua các tương tác trong khi hoạt động trong các giới hạn token. Hệ thống giải quyết vấn đề này thông qua các chiến lược nén ngữ cảnh có cấu trúc và truy xuất có chọn lọc, cho phép các tác nhân giữ lại thông tin cần thiết mà không vượt quá giới hạn vận hành.

Tác động của hệ thống đã được quan sát thấy là giảm thời gian dành cho các tác vụ hỗ trợ kỹ thuật thường lệ và tăng tốc độ chu trình giải quyết cho các vấn đề phổ biến. Mặc dù các chỉ số hiệu suất chính xác không được tiết lộ, đội ngũ ghi nhận sự chuyển dịch nỗ lực kỹ thuật từ việc xử lý sự cố sang kỹ thuật nền tảng và cải thiện hệ thống.

Grab xây dựng hệ thống đa tác nhân AI tự động hóa hỗ trợ kỹ thuật: Một nghiên cứu điển hình

Kiến trúc và Quy trình làm việc

Tối ưu hóa công cụ và An toàn

Bài viết liên quan