Rootly Graphify: Biến dữ liệu sự cố thành đồ thị tri thức thông minh

Rootly Graphify là công cụ mới giúp chuyển đổi các sự cố kỹ thuật thành một đồ thị tri thức có thể truy vấn. Bằng cách kết hợp với API của Rootly và sức mạnh của LLM, công cụ này cho phép các kỹ sư phát hiện các mẫu hình ẩn, nguyên nhân gốc rễ và các mối quan hệ phức tạp trong hệ thống một cách trực quan.

Trong thế giới DevOps và quản lý sự cố (Incident Management), việc rút ra kiến thức từ hàng tá dữ liệu hỗn loạn luôn là một thách thức lớn. Rootly Graphify, một công cụ mã nguồn mở mới, đang giải quyết vấn đề này bằng cách biến các sự cố kỹ thuật thành một đồ thị tri thức (knowledge graph) có thể truy vấn và phân tích sâu.

Được xây dựng dựa trên nền tảng Graphify — lấy cảm hứng từ ý tưởng LLM Wiki của Andrej Karpathy — Rootly Graphify không chỉ lưu trữ dữ liệu mà còn giúp hệ thống "học" từ quá khứ. Thay vì phải khám phá lại kiến thức từ con số không cho mỗi truy vấn, công cụ này sử dụng Mô hình Ngôn ngữ Lớn (LLM) để xây dựng một cấu trúc đồ thị bền vững, ngày càng phong phú theo thời gian.

Banner Rootly Graphify

Cơ chế hoạt động: Từ dữ liệu thô đến thông tin chi tiết

Rootly Graphify hoạt động theo hai giai đoạn chính: thu thập dữ liệu từ Rootly API và phân tích đồ thị.

Người dùng có thể kết nối với Rootly API để thu thập các sự cố (incidents), cảnh báo (alerts), thông tin đội nhóm và danh mục dịch vụ trong một khoảng thời gian cụ thể (7, 30 hoặc 90 ngày). Dữ liệu này sau đó được xuất ra một kho ngữ liệu cục bộ và chuyển đổi thành đồ thị tương tác.

Quá trình này tạo ra các tệp đầu ra quan trọng:

graph.html: Giao diện trực quan để khám phá đồ thị trên trình duyệt.
GRAPH_REPORT.md: Báo cáo tự động tổng hợp các "nút trung tâm" (god nodes), cộng đồng và các câu hỏi gợi ý.
graph.json: Dữ liệu đồ thị thô để phục vụ các truy vấn phức tạp.

Khám phá các mẫu hình ẩn với AI

Điểm mạnh nhất của Rootly Graphify nằm ở khả năng làm giàu ngữ nghĩa (semantic enrichment). Bằng cách sử dụng Claude Code hoặc Codex, người dùng có thể chạy các tác nhân con (sub-agents) song song để suy luận các chủ đề xuyên suốt các sự cố khác nhau.

Giao diện đồ thị

Công cụ này giúp trả lời những câu hỏi khó mà các bảng tính (spreadsheet) thông thường không thể làm được, ví dụ như:

Bản đồ nhiệt sự cố dịch vụ: Xác định dịch vụ nào đang gặp sự cố thường xuyên nhất và mức độ nghiêm trọng. Các cụm dịch vụ thường xuyên lỗi cùng lúc sẽ được nhóm lại, tiết lộ các phụ thuộc hạ tầng ẩn.
Bản đồ trực chiến & thăng cấp: Xem xét ai đang chịu trách nhiệm cho các lịch trình và chính sách thăng cấp. Điều này giúp phát hiện các "điểm thất bại duy nhất" (single points of failure) — ví dụ: một cá nhân phải trực chiến cho 4 lịch trình khác nhau.
Phễu Cảnh báo đến Sự cố: Phân loại nguồn cảnh báo nào tạo ra sự cố thật và nguồn nào chỉ là nhiễu. Một nguồn cảnh báo có 200 lần kích hoạt nhưng 0 sự cố sẽ được nhận diện ngay lập tức.
Tương quan lỗi đa dịch vụ: Tìm ra các dịch vụ thường xuyên bị lỗi cùng nhau trong cùng một khung thời gian, giúp xác định các nhóm cùng chung số phận (shared-fate groups).

Cài đặt và sử dụng

Để bắt đầu với Rootly Graphify, người dùng cần cài đặt gói phần mềm thông qua pip:

pip install "graphifyy[rootly]"

Sau khi thiết lập API key trong tệp .env, bạn có thể chạy quy trình làm việc bằng lệnh:

graphify rootly --days 30

Để phân tích sâu hơn với AI, trong Claude Code hoặc Codex, bạn chỉ cần nhập:

/graphify ./graphify-rootly-data --mode deep

Tại sao Đồ thị lại hiệu quả hơn?

Khác với các phương pháp tìm kiếm truyền thống, Rootly Graphify sử dụng thuật toán Leiden để phát hiện cộng đồng dựa trên mật độ cạnh (topology-based clustering) mà không cần bước nhúng (embedding) riêng biệt hay cơ sở dữ liệu vector.

Mối quan hệ trong đồ thị được gắn thẻ rõ ràng:

EXTRACTED: Trích xuất trực tiếp từ nguồn dữ liệu (độ tin cậy 1.0).
INFERRED: Suy luận hợp lý với điểm tin cậy (confidence score) từ 0.0 đến 1.0.
AMBIGUOUS: Được gắn cờ để xem xét lại.

Cách tiếp cận này không chỉ giúp tiết kiệm token khi sử dụng LLM cho các truy vấn sau này (nhờ cơ chế cache SHA256), mà còn cung cấp bối cảnh logic rõ ràng cho các kỹ sư SRE và DevOps trong việc cải thiện độ ổn định của hệ thống.