Resolve AI: Bùng nổ lập trình AI đang "đổ bể" hệ thống sản xuất và giải pháp để khắc phục

Resolve AI, startup về vận hành sản xuất được hậu thuẫn bởi Greylock và Lightspeed, vừa công bố nâng cấp lớn nền tảng với hệ thống đa tác nhân và không gian làm việc chung giữa người và AI. Công ty cho rằng sự bùng nổ của lập trình AI đã tạo ra gánh nặng cho các hệ thống hiện tại, và giải pháp mới của họ giúp tự động hóa quy trình gỡ rối và tìm nguyên nhân gốc rễ chính xác hơn gấp đôi.

Resolve AI, startup chuyên về vận hành sản xuất (production-operations) có trụ sở tại Mỹ, vừa công bố một đợt mở rộng quy mô lớn cho nền tảng của mình. Đợt cập nhật này giới thiệu các tác nhân AI luôn hoạt động 24/7, kiến trúc điều tra được thiết kế lại và một không gian làm việc chung nơi kỹ sư và các tác nhân AI có thể hợp tác thời gian thực để xử lý các sự cố.

Trọng tâm của bản phát hành này là hệ thống điều tra đa tác nhân (multi-agent investigation system) mới do phòng thí nghiệm nghiên cứu nội bộ của Resolve AI phát triển. Thay vì triển khai một tác nhân AI đơn lẻ để chẩn đoán lỗi hệ thống — giống như việc chỉ định một kỹ sư trực ca đơn độc — nền tảng nay điều phối một đội ngũ các tác nhân chuyên biệt. Những tác nhân này sẽ theo đuổi nhiều giả thuyết đồng thời, xác minh độc lập kết luận của nhau và xây dựng chuỗi nhân quả hoàn chỉnh từ nguyên nhân gốc rễ đến triệu chứng. Công ty khẳng định kiến trúc mới này giúp cải thiện độ chính xác trong việc xác định nguyên nhân gốc rễ lên hơn gấp đôi so với các phiên bản trước.

"Hãy tưởng tượng một tác nhân duy nhất trực ca, giống như con người sẽ làm," Spiros Xanthos, CEO và đồng sáng lập Resolve AI, chia sẻ trong một cuộc phỏng vấn. "Giờ đây chúng tôi có một đội ngũ tác nhân làm việc cùng nhau, gần giống như một nhóm người đang gỡ rối một vấn đề, và điều này đã giúp cải thiện chất lượng lên gấp đôi."

Thông báo này đưa ra vào một thời điểm đầy căng thẳng trong ngành công nghệ phần mềm. Sự bùng nổ trong việc tạo mã bằng AI đã giúp các đội ngũ kỹ thuật xây dựng và vận hành phần mềm nhanh chóng hơn bao giờ hết. Tuy nhiên, việc duy trì hoạt động cho phần mềm đó trong môi trường production — gỡ rối khi gặp lỗi, giám sát sau khi triển khai, kiểm tra tình trạng hệ thống — vẫn chủ yếu là thủ công. Với việc huy động 125 triệu USD vòng Series A định giá 1 tỷ USD earlier this year, Resolve AI đang đặt cược lớn rằng khâu vận hành trong vòng đời phần mềm là biên giới lớn tiếp theo cho đầu tư AI.

Hệ thống đa tác nhân và độ chính xác được kiểm chứng

Bất kỳ tuyên bố nào về độ chính xác từ một startup đều cần được xem xét kỹ lưỡng. Xanthos đã thẳng thắn về quy mô và hạn chế của đợt đánh giá này. Con số "gấp đôi" đến từ các điểm chuẩn nội bộ, không phải từ một bên thứ ba kiểm toán, nhưng bộ đánh giá này được xây dựng để phản ánh độ phức tạp mà khách hàng doanh nghiệp của Resolve AI gặp phải hàng ngày.

Những tác nhân này hiện đóng vai trò là người phản ứng đầu tiên cho mọi cảnh báo trực ca (on-call alert), thường sẽ phân loại trong vòng năm phút trước khi kỹ sư con người can thiệp. Trước đó, DoorDash — một khách hàng của Resolve AI — đã báo cáo giảm thời gian tìm ra nguyên nhân gốc rễ lên tới 87%. Theo Xanthos, thời gian khắc phục sự cố trung bình (MTTR) thường kéo dài hàng chục phút, thậm chí hàng giờ, vì vậy việc cải thiện hơn 80% là một bước tiến khổng lồ.

Ngăn chặn "ảo giác" của AI bằng cơ chế kiểm tra chéo

Một trong những thách thức cốt lõi khi áp dụng mô hình ngôn ngữ lớn (LLM) vào môi trường sản xuất là xu hướng tạo ra câu trả lời có vẻ hợp lý nhưng lại sai lệch — hay còn gọi là ảo giác (hallucination). Trong bối cảnh hệ thống gặp sự cố, việc dẫn dắt đội ngũ kỹ sư đi theo hướng sửa chữa sai có thể khiến dịch vụ tiếp tục bị gián đoạn.

Resolve AI áp dụng biện pháp đối phó là hệ thống xác minh phân lớp giữa các tác nhân. Mỗi tác nhân điều tra một giả thuyết phải trích dẫn mọi bằng chứng mà họ dựa vào và trình bày bằng chứng đó cho một tác nhân khác xem xét độc lập. Các tác nhân đồng cấp sẽ tích cực tìm cách bác bỏ lý thuyết bằng cách xác định các lỗ hổng trong logic.

"Rào cản để thực sự nói 'Tôi có câu trả lời' là rất cao," Xanthos nhấn mạnh. Trong những trường hợp không chắc chắn, hệ thống sẽ thừa nhận thiếu thông tin thay vì đưa ra câu trả lời sai lầm.

Các tác nhân nền (Background Agents) luôn trực 24/7

Ngoài phản ứng sự cố, Resolve AI còn giới thiệu lớp tác nhân nền mới được thiết kế để xử lý các công việc vận hành liên tục nhưng thường vô hình. Những tác nhân này chạy theo lịch trình hoặc tự động kích hoạt phản ứng với các sự kiện như một lần triển khai mới, một cảnh báo kích hoạt, hoặc một pull request được hợp nhất.

Khi một kỹ sư mở giao diện Resolve AI, các tác nhân đã thực hiện công việc của mình: điều tra trước các vấn đề ưu tiên, giám sát triển khai, kiểm tra tính sạch sẽ của cảnh báo và đánh dấu các bất thường về chi phí. Xanthos mô tả đây là "các tác nhân SRE (Kỹ sư Độ tin cậy và Vận hành Site) đa mục đ dụng có sẵn cho mọi nhà phát triển," giúp chuyển các nhóm từ phản ứng hốt hoảng sang quản lý vận động chủ động.

Không gian làm việc chung giữa Kỹ sư và AI

Thành phần lớn thứ ba của bản phát hành này là bề mặt điều tra chung — một không gian làm việc nơi kỹ sư và tác nhân AI làm việc từ cùng một bằng chứng trực tiếp trong một sự cố đang diễn ra. Các báo cáo cập nhật động khi cuộc điều tra phát triển. Mọi phát hiện đều có thể kiểm tra. Kỹ sư có thể khám phá các cuộc điều tra phụ mà không làm gián đoạn quy trình làm việc chính.

Công ty cũng đưa nền tảng của mình ra dưới dạng REST API và máy chủ MCP (Model Context Protocol), cho phép các đội ngũ kỹ thuật tích hợp Resolve AI vào quy trình làm việc và cơ sở hạ tầng rộng lớn hơn. Điều này cho thấy Resolve AI định vị mình không phải là một hệ thống khép kín mà là một nút chuyên biệt trong hệ sinh thái các tác nhân AI rộng lớn hơn.

Cạnh tranh với các ông lớn như Datadog và PagerDuty

Không gian vận hành dựa trên tác nhân AI đã trở nên đông đúc trong năm qua. Datadog, PagerDuty và các nhà cung cấp đám mây lớn đều đã công bố các khả năng vận hành tăng cường bằng AI. Khi được hỏi điều gì khiến Resolve AI khác biệt, Xanthos chỉ vào chiều sâu của nền tảng kỹ thuật của công ty.

Ông lưu ý rằng ông và đồng sáng lập Mayank Agarwal là đồng tạo ra OpenTelemetry, dự án nguồn mở được chấp nhận rộng rãi nhất trong lĩnh vực quan sát (observability). Resolve AI cũng sở hữu một AI Lab mới do cựu trưởng nhóm sau đào tạo (post-training lead) cho các mô hình Llama của Meta dẫn dắt, kết hợp chuyên môn sâu về quan sát sản xuất với AI.

Mô hình định giá dựa trên kết quả thực tế

Mô hình định giá của Resolve AI khác biệt với cấp phép phần mềm doanh nghiệp truyền thống. Công ty bán các tín dụng (credits) được tiêu thụ khi các tác nhân thực hiện công việc — một cách tiếp cận dựa trên kết quả.

"Chúng tôi không bán phần mềm," Xanthos nói. "Cách bạn mua và sử dụng Resolve là mua tín dụng được tiêu thụ khi Resolve thực hiện một hành động. Chỉ khi Resolve khắc phục sự cố một cảnh báo — đó là lần duy nhất nó tiêu thụ tín dụng."

Đối với các khách hàng doanh nghiệp trong các ngành được quản lý, giải pháp cho phép máy lớp dữ liệu nằm bất cứ nơi nào công cụ hiện có của khách hàng sống, trong khi lớp suy luận có thể chạy dưới dạng triển khai SaaS tiêu chuẩn hoặc trong VPC cụ thể của khách hàng.

Xây dựng lòng tin vào AI trong hệ thống production

Câu hỏi về việc liệu các đội ngũ kỹ thuật có tin tưởng để các tác nhân AI thực hiện hành động tự trị trong môi trường production hay không — chẳng hạn như quay lại triển khai, thêm dung lượng, tạo pull request — là một thách thức văn hóa. Xanthos so sánh điều này với xe tự lái: "Để chúng ta cho phép một chiếc xe tự lái trên đường, chúng ta phải chứng minh rằng nó an toàn hơn con người."

Có một tập hợp các hành động tương đối rủi ro thấp mà hầu hết các công ty công nghệ có thể thoải mái để tác nhân thực hiện, và một tập hợp khác mà con người phải phê duyệt. Tuy nhiên, khi chất lượng tiếp tục tăng lên, Xanthos tin rằng ngưỡng cửa sẽ được vượt qua trong năm nay, nơi phần lớn các hành động sẽ được thực hiện tự động bởi tác nhân.

Phản biện: Tạo mã bằng AI đang làm khủng hoảng vận hành tồi tệ hơn?

Có lẽ lập luận đầy khiêu khích nhất trong luận điểm của Resolve AI là sự bùng nổ của mã được tạo bởi AI thực sự đang làm trầm trọng thêm vấn đề vận hành sản xuất. Việc các công ty triển khai nhiều mã hơn, được viết bởi các công cụ mà kỹ sư của họ có thể không hiểu đầy đủ, chạy trên các hệ thống sản xuất mà những kỹ sư đó không xây dựng, đồng nghĩa với việc sự phức tạp vận hành — và hậu quả của sự thất bại — sẽ tăng tương ứng.

Xanthos ước tính rằng các kỹ sư dành tới 70% thời gian để duy trì và gỡ rối hệ thống sản xuất thay vì xây dựng các tính năng mới. "Chúng ta đang đối mặt với một cuộc khủng hoảng mới nơi chúng ta xây dựng nhanh hơn khả năng vận hành," ông kết luận.