Proxy-Pointer RAG: Giải quyết sự phân tán thực thể và mối quan hệ trong Đồ thị Tri thức lớn

Đồ thị tri thức doanh nghiệp thường gặp khó khăn trong việc duy trì tính nhất quán khi quy mô mở rộng, dẫn đến tình trạng phân tán thực thể và mối quan hệ. Bài viết này phân tích kiến trúc Proxy-Pointer RAG, một giải pháp sử dụng chỉ mục vector để "định vị ngữ nghĩa", giúp tối ưu hóa quy trình hòa giải dữ liệu và giảm thiểu chi phí tính toán khi cập nhật đồ thị.

Đồ thị tri thức doanh nghiệp (Enterprise Knowledge Graphs) đã trở thành lớp ngữ nghĩa kinh doanh được sử dụng rộng rãi nhất, cung cấp cái nhìn thống nhất về nhà cung cấp, hợp đồng, sản phẩm và đối tác của một tổ chức. Theo thời gian, chúng phát triển tự nhiên và trở nên cực kỳ lớn với hàng triệu nút (thực thể) và gấp nhiều lần số lượng cạnh (mối quan hệ).

Tuy nhiên, ngay cả khi có các quy trình quản trị và bản thể học (ontology) được áp đặt, sự tuân thủ giữa các đường ống dữ liệu (pipeline) khác nhau nạp dữ liệu vào đồ thị thường không nhất quán. Các quy tắc kinh doanh mới xuất hiện, quy ước đặt tên thay đổi và các vùng dữ liệu cũ thường bị bỏ lại do chi phí tính toán và độ phức tạp khi nâng cấp.

Tất cả điều này khiến việc duy trì một đồ thị lớn ngày càng khó khăn. Một trong những vấn đề vận hành lớn nhất nằm ở lớp nhập liệu (ingestion layer). Đối với mỗi tài liệu mới cần thêm vào, các câu hỏi lặp đi lặp lại luôn xuất hiện: "Sony Corp" đã tồn tại trong đồ thị chưa? Nếu có, nó mang tên gì? "Sony Corp" trong tài liệu mới này có phải là cùng một thực thể với "Sony Interactive Entertainment" đã có trong đồ thị hay không?

Trong khi thiếu các công cụ hiệu quả để thu hẹp phạm vi tìm kiếm, các quy trình nhập liệu buộc phải thực hiện các tìm kiếm đồ thị toàn cầu tốn kém để quét các biến thể, làm giảm hiệu suất và gây ra chi phí tính toán lớn.

Hạn chế của RAG truyền thống

Cách giải thích rõ ràng cho bước lọc trước này là sử dụng chỉ mục vector. Tuy nhiên, Truy xuất tăng cường tạo sinh (Retrieval-Augmented Generation - RAG) truyền thống hoàn toàn không phù hợp cho nhiệm vụ này. Việc chia nhỏ tài liệu (chunking) theo phương pháp truyền thống sẽ phân mảnh tài liệu thành các đoạn văn bản cô lập, thiếu cấu trúc câu chuyện chung. Mặc dù các đoạn văn này có thể tìm thấy tên thực thể, nhưng chúng lại loại bỏ bối cảnh xung quanh cần thiết để trích xuất chính xác các mối quan hệ giữa các công ty, sản phẩm, cá nhân, v.v.

Đây chính là nơi kiến trúc Proxy-Pointer phát huy tác dụng.

Proxy-Pointer là gì?

Proxy-Pointer là một cách tiếp cận mới sử dụng các kết quả khớp vector làm "con trỏ" để truy xuất các phần cấu trúc nguyên vẹn của tài liệu. Thay vì buộc đồ thị tri thức phải thực hiện tái tạo ngữ nghĩa quy mô lớn từ các nút và cạnh cô lập, nó truy xuất bằng chứng ngữ cảnh hoàn chỉnh trực tiếp từ các tài liệu lịch sử.

Proxy-Pointer khắc phục các vấn đề của RAG truyền thống bằng năm kỹ thuật kỹ thuật:

Skeleton Tree: Phân tích các tiêu đề Markdown thành cây phân cấp.
Breadcrumb Injection: Tiền tố đường dẫn cấu trúc đầy đủ cho mọi đoạn văn trước khi nhúng.
Structure-Guided Chunking: Chia văn bản trong ranh giới phần, không bao giờ cắt ngang chúng.
Noise Filtering: Loại bỏ các phần gây nhiễu (mục lục, bảng chú giải thuật ngữ).
Pointer-Based Context: Sử dụng các đoạn văn được truy xuất làm con trỏ để tải toàn bộ phần tài liệu nguyên vẹn cho bộ tổng hợp.

Quy trình hoạt động trong thực tế

Kiến trúc này sử dụng quy trình hai bước để thu hẹp khoảng cách giữa khớp chính xác và tìm kiếm ngữ nghĩa.

1. Xây dựng Hồ sơ Thực thể (Entity Profile)

Khi xử lý tài liệu mới, một LLM thượng nguồn không chỉ trích xuất thực thể mà còn tạo ra một "Hồ sơ Thực thể". Thay vì chỉ trích xuất tên "Sony", nó tổng hợp các sự kiện chính và bối cảnh kinh doanh xung quanh thực thể đó.

Query Builder tự động chuyển đổi hồ sơ này thành chiến lược tìm kiếm vector đa kênh. Nó tạo ra một truy vấn cho tên thực thể thuần túy và phân tích hồ sơ để tạo ra các câu hỏi nhằm kiểm tra xem mối quan hệ tương tự có tồn tại hay không.

2. Vector Hit chỉ là "Con trỏ"

Trong RAG truyền thống, cơ sở dữ liệu vector sẽ trả về một đoạn văn bị phân mảnh. Proxy-Pointer bỏ qua văn bản của đoạn văn đó. Thay vào đó, nó sử dụng siêu dữ liệu của đoạn văn làm "con trỏ" để truy xuất toàn bộ phần tài liệu có cấu trúc nguyên vẹn.

Điều này cho phép LLM Hòa giải (Reconciler) nhìn thấy toàn bộ bối cảnh ngữ nghĩa để suy ra các mối quan hệ giữa các thực thể, ví dụ: Sony là chủ sở hữu của PlayStation.

3. Hòa giải Nghiêm ngặt do LLM điều khiển

Chúng ta lấy các phần duy nhất hàng đầu (top-k) được trả về bởi tất cả các truy vấn để tạo bối cảnh cho Reconciler LLM. Mục tiêu ở đây không phải là phân tích exhaustive toàn bộ tài liệu lịch sử, mà là "Định vị Ngữ nghĩa" (Semantic Localization) cho việc nhập liệu đồ thị. Bằng cách truy xuất chỉ một vài phần có bối cảnh đầy đủ và liên quan cao, Reconciler LLM nắm bắt được khối lượng quan trọng các biệt danh thực thể và mối quan hệ kinh doanh.

Kết quả kiểm thử

Kiến trúc này đã được triển khai và cho thấy kết quả đáng ấn tượng trong các tình huống nhập liệu phức tạp.

Cầu nối Biệt danh (Kiểm thử "Sony" và "Valve"): Khi được hỏi về "Sony", Reconciler đã đọc các phần lịch sử và xác định chính xác thực thể pháp lý chính thức: "Sony Interactive Entertainment, Inc.". Nó cũng giải quyết thành công mối quan hệ sở hữu thương hiệu PlayStation và tìm thấy bằng chứng gián tiếp cho mối quan hệ sử dụng kiến trúc đồ họa RDNA của AMD, ngăn chặn việc tạo ra các cạnh thừa.

Tương tự, với "Valve", hệ thống đã trích xuất thành công hai biến thể riêng biệt — "Valve" và "Valve Corporation" — thông qua việc phân tích cả quan hệ đối tác sản phẩm (Steam Deck) và công bố thương hiệu.

Định vị Ngữ nghĩa (Kiểm thử "Pensando"): Đây là nơi kiến trúc thực sự tỏa sáng. Khi được yêu cầu hòa giải "Pensando Systems" (một công ty AMD mua lại vào năm 2022) dựa trên dữ liệu năm 2020-2021, hệ thống xác định đúng đây là một nút mới chưa có trong đồ thị. Quan trọng hơn, dựa trên hồ sơ thực thể Pensando, nó xác định được các thực thể như Trung tâm dữ liệu (Data center), Mạng lưới (Networking) và AMD mà Pensando có liên quan. Điều này giúp định vị vùng lân cận của đồ thị để tìm kiếm, đơn giản hóa việc nhập liệu.

Kết luận

Khi đồ thị tri thức doanh nghiệp phát triển lên đến hàng trăm triệu nút, việc hòa giải dữ liệu ngày càng trở thành nút thắt cổ chai chi phối. Proxy-Pointer tiếp cận vấn đề này một cách khác bằng cách chuyển gánh nặng hòa giải từ Đồ thị Tri thức sang quy trình truy xuất vector nhanh hơn và rẻ hơn đáng kể.

Đồ thị không còn phải suy luận ý nghĩa toàn cầu trước. Nó có thể tập trung vào thế mạnh của mình: duyệt cấu trúc cục bộ, tính bền vững và quản trị. Proxy-Pointer không thay thế Đồ thị Tri thức; nó giúp đồ thị hiểu được nơi cần tìm kiếm.