Proxy-Pointer RAG: Giảm lãng phí khi trích xuất dữ liệu cho Knowledge Graph

Bài viết khám phá phương pháp Proxy-Pointer RAG nhằm tối ưu hóa quy trình nhận dạng thực thể (NER) trong các hệ thống Knowledge Graph doanh nghiệp. Bằng cách sử dụng chỉ số Graphability để dự đoán giá trị của từng phần tài liệu, giải pháp này giúp cắt giảm đáng kể chi phí xử lý của LLM mà không làm mất đi các quan hệ dữ liệu quan trọng.

Trong bối cảnh các doanh nghiệp ngày càng phụ thuộc vào Knowledge Graphs (Đồ thị tri thức) để quản lý dữ liệu phức tạp, bài toán tối ưu hóa quy trình nhập dữ liệu đang trở nên cấp thiết hơn bao giờ hết. Một trong những thách thức lớn nhất là việc xử lý các tài liệu dài hàng trăm trang—như hợp đồng tín dụng hoặc hướng dẫn tuân thủ—để trích xuất thực thể và quan hệ.

Bài viết này sẽ giới thiệu Proxy-Pointer RAG, một phương pháp tiếp cận mới giúp loại bỏ sự lãng phí trong quá trình này thông qua việc sử dụng cấu trúc tài liệu để dự đoán vùng dữ liệu có giá trị.

Thách thức trong việc xây dựng Knowledge Graph hiện nay

Các hệ thống GraphRAG doanh nghiệp thường phải xử lý hàng nghìn tài liệu tương tự nhau. Để xây dựng đồ thị, các kỹ sư thường phải đưa toàn bộ nội dung văn bản qua các mô hình ngôn ngữ lớn (LLM) để thực hiện NER (Nhận dạng thực thể có tên) và trích xuất quan hệ.

Vấn đề nằm ở chỗ, các tài liệu này thường rất dài (trên 500.000 ký tự) và chứa đựng nhiều phần văn bản mẫu (boilerplate), lịch trình, phụ lục... mang tính hành chính nhưng ít giá trị về mặt quan hệ dữ liệu. Việc buộc LLM phải "đọc" toàn bộ những nội dung này không chỉ tốn kém chi phí tính toán (triệu token) mà còn dễ dẫn đến sự không nhất quán trong kết quả trích xuất do độ dài ngữ cảnh quá lớn.

Proxy-Pointer và Chỉ số Graphability

Thay vì xử lý văn bản một cách mù quáng, Proxy-Pointer RAG tận dụng tính chất cấu trúc có thể dự đoán được của các tài liệu doanh nghiệp. Phương pháp này giới thiệu khái niệm Graphability Indexing (Chỉ số khả năng đồ thị hóa).

Ý tưởng cốt lõi là không phải mọi phần của tài liệu đều có giá trị như nhau. Chúng ta có thể phân loại các phần của tài liệu dựa trên Mật độ quan hệ (Relational Density)—số lượng kết nối kinh doanh có thể hành động được—thay vì chỉ đếm số lượng thực thể.

Quy trình này bao gồm các bước sau:

Xây dựng chỉ số cơ bản: Phân loại các phần của tài liệu (ví dụ: thanh toán, nghĩa vụ, luật điều chỉnh) thành các mức độ từ Rất cao đến Rất thấp dựa trên giá trị quan hệ dự kiến.
Tạo cây cấu trúc: Xem tài liệu như một cây các khối ngữ nghĩa thay vì một dòng văn bản phẳng.
Điều chỉnh và làm phong phú: Sử dụng LLM để quét các phần, so sánh kết quả thực tế với dự đoán của chỉ số và điều chỉnh lại cho phù hợp.
Định tuyến và Bỏ qua: Chỉ gửi các phần có giá trị Cao, Trung bình đến LLM để trích xuất sâu. Các phần có giá trị Thấp sẽ được bỏ qua hoàn toàn.

Thử nghiệm thực tế trên các hợp đồng tín dụng lớn

Để kiểm chứng giả thuyết này, một thí nghiệm đã được thực hiện trên ba hợp đồng tín dụng doanh nghiệp khổng lồ từ các ngành nghề khác nhau: Emerson Electric, AT&T và Texas Roadhouse.

Giai đoạn 1: Emerson Electric

Với chỉ số cơ bản ban đầu, hệ thống đã xác định chính xác 70% số phần của tài liệu. Kết quả đáng chú ý là 36.880 ký tự văn bản được phân loại là "nhiễu" (giá trị thấp), giúp giảm 16,10% khối lượng xử lý của LLM mà không bỏ sót thông tin quan trọng.

Giai đoạn 2: AT&T

Sau khi làm phong phú thêm chỉ số từ giai đoạn 1, hệ thống xử lý hợp đồng của AT&T hiệu quả hơn. Chỉ số đã xác định đúng 71,4% các phần. Đặc biệt, hệ thống đã loại bỏ thành công các phần về xác định lãi suất và phụ lục, giúp giảm 33,94% chi phí xử lý.

Giai đoạn 3: Texas Roadhouse

Đây là bài toán khó nhất khi tài liệu dài gấp đôi hai tài liệu trước và thuộc ngành dịch vụ ăn uống. Tuy nhiên, chỉ số đã hoạt động xuất sắc với 79,4% khớp hoàn hảo. Hệ thống đạt được mức tiết kiệm ròng 38% khối lượng dữ liệu cần xử lý bằng cách bỏ qua các phần hành chính và phụ lục không cần thiết.

Kết luận và Tương lai

Kết quả từ thí nghiệm cho thấy rằng cấu trúc tài liệu có thể đóng vai trò là một bộ dự báo mạnh mẽ cho hiệu quả trích xuất đồ thị. Thay vì quét mù quáng bằng ngữ nghĩa (brute-force semantic scanning), Proxy-Pointer RAG cho phép định tuyến cấu trúc có mục tiêu.

Khi các hệ thống GraphRAG doanh nghiệp mở rộng quy lên hàng triệu hợp đồng và tài liệu, việc tiếp cận nhận thức cấu trúc (structure-aware ingestion) này sẽ là chìa khóa để việc xây dựng Knowledge Graph lớn trở nên bền vững về mặt vận hành và chi phí.

Phương pháp Proxy-Pointer hiện đã được mã nguồn mở và có thể truy cập miễn phí trên GitHub để cộng đồng phát triển và ứng dụng.