Nhật ký truy vấn SQL giúp các tác nhân AI ngừng "ảo giác" khi kết nối dữ liệu

Phần mềm28 tháng 5, 2026·8 phút đọc

DataHub vừa ra mắt lớp Context Intelligence mới, khai thác lịch sử truy vấn SQL để xây dựng chỉ mục ngữ nghĩa, giúp các tác nhân AI giảm thiểu lỗi "ảo giác" và đưa ra câu trả lời chính xác hơn. Công nghệ này biến lịch sử dữ liệu nhiều năm thành cơ sở tri thức sống động, thay thế cho việc chỉ dựa vào lược đồ thô.

Nhật ký truy vấn SQL giúp các tác nhân AI ngừng "ảo giác" khi kết nối dữ liệu

Khi nhóm dữ liệu của Miro cho phép các tác nhân AI truy cập trực tiếp vào môi trường Snowflake, các tác nhân này đã đưa ra câu trả lời sai hơn 65% thời gian. Vấn đề không nằm ở mô hình AI, mà là ở ngữ cảnh (context). Với hơn 10.000 bảng dữ liệu và không có lớp ngữ nghĩa để định hướng, các tác nhân không thể biết được tài sản dữ liệu nào phù hợp với câu hỏi kinh doanh nào.

DataHub vừa công bố một lớp thông minh về ngữ cảnh (Context Intelligence) vào thứ Năm, khai thác lịch sử truy vấn SQL hiện có để xây dựng một chỉ mục ngữ nghĩa và hiển thị nó cho các tác nhân thông qua MCP, LangChain, Google's Agent Development Kit và CrewAI. Công ty gọi đây là Context Intelligence, được xây dựng trên cùng cơ sở hạ tầng nhật ký truy vấn mà DataHub đã sử dụng để theo dõi dòng chảy dữ liệu (lineage tracking) trong các triển khai sản xuất trên toàn thế giới.

Công ty được thành lập bởi đội ngũ đã xây dựng DataHub như một dự án mã nguồn mở tại LinkedIn, nơi đồng sáng lập và CTO Shirshanka Das đã dẫn dắt cơ sở hạ tầng dữ liệu trong gần 11 năm. Dự án mã nguồn mở hiện có hơn 15.000 người đóng góp và 3.000 triển khai sản xuất trên toàn cầu.

"Lần đầu tiên, các doanh nghiệp có thể biến nhiều năm lịch sử truy vấn của các nhà phân tích thành một cơ sở tri thức sống động và có thể truy xuất, nơi các tác nhân ngừng ảo giác về các phép nối (joins) vì chúng có quyền truy cập vào các phép nối đã hoạt động trước đây, được xác thực bởi những người đã chạy chúng," Shirshanka Das, đồng sáng lập và CTO của DataHub, chia sẻ trong một cuộc phỏng vấn độc quyền với VentureBeat.

Tại sao lịch sử truy vấn lại vượt trội hơn lược đồ thô trong định hướng tác nhân

DataHub bắt đầu như một dự án quản lý siêu dữ liệu tại LinkedIn, được xây dựng để giải quyết đồng thời hai vấn đề: làm cho dữ liệu dễ dàng tìm kiếm và sử dụng trên toàn tổ chức đồng thời đảm bảo rằng dữ liệu đó chỉ được sử dụng cho đúng mục đích. Das đã mã nguồn mở dự án vào đầu năm 2020 sau gần sáu năm phát triển nội bộ.

Trường hợp sử dụng chính trong những năm qua là dòng chảy dữ liệu (lineage) — hiểu cách dữ liệu di chuyển từ các hệ thống vận hành thông qua cơ sở hạ tầng luồng (streaming) vào các kho dữ liệu và ra các công cụ kinh doanh. Các cuộc kiểm toán tuân thủ quy định, khắc phục sự cố vận hành và đào tạo kỹ sư mới đều phụ thuộc vào biểu đồ dòng chảy này. Postgres là nguồn kết nối nhiều nhất trong cơ sở triển khai DataHub trên toàn cầu, tiếp theo là MySQL, Oracle và các kho dữ liệu đám mây lớn bao gồm Snowflake và Google BigQuery. Nền tảng này hỗ trợ hơn 100 nguồn siêu dữ liệu được kết nối.

Cơ sở triển khai đó rất quan trọng đối với những gì DataHub đang phát hành. Khả năng trích xuất nhật ký truy vấn và phân tích cú pháp SQL hỗ trợ Context Intelligence đã được phát triển trong nhiều năm triển khai sản xuất, không phải được xây dựng cho bản phát hành này. Cùng cơ sở hạ tầng đó hiện nay phục vụ các tác nhân truy vấn chỉ mục ngữ nghĩa tại thời gian chạy.

"Lớp tiêu thụ đã thay đổi từ con người sang các tác nhân," Das nói.

Context Intelligence khai thác lịch sử truy vấn đã xác thực, không phải nhật ký thô

Context Intelligence là một lớp khả năng mới được xây dựng trên nền tảng siêu dữ liệu mã nguồn mở hiện có của DataHub. Nền tảng mã nguồn mở đã dành nhiều năm để trích xuất và phân tích nhật ký truy vấn từ các kho dữ liệu được kết nối để theo dõi dòng chảy. Cùng cơ sở hạ tầng đó là những gì Context Intelligence dựa vào để xây dựng chỉ mục ngữ nghĩa. Khả năng này là mới, nhưng cơ sở hạ tầng bên dưới thì không.

Lọc tín hiệu. Nhật ký truy vấn của kho dữ liệu chứa quá nhiều nhiễu để sử dụng trực tiếp. Động cơ của DataHub lọc ra những gì Das mô tả là "các truy vấn vàng" (golden queries), nghĩa là các truy vấn của nhà phân tích chất lượng cao và quy trình được lên lịch đại diện cho logic kinh doanh đã được chứng minh.

Đảo ngược SQL thành định nghĩa ngữ nghĩa. Động cơ trích xuất các mẫu từ các truy vấn đó và dịch chúng thành các định nghĩa văn bản có cấu trúc mà DataHub gọi là các điểm neo ngữ nghĩa (semantic anchors). Những điểm neo này tạo thành cơ sở truy xuất mà các tác nhân dựa vào trước khi tạo SQL.

"Bạn có thể coi đó gần như là đảo ngược văn bản thành SQL," Das nói.

Xác thực của con người. Context Hub cho phép các chuyên gia trong lĩnh vực xem xét ngữ cảnh do AI đề xuất, giải quyết các định nghĩa xung đột và mô phỏng tác động của các thay đổi trước khi xuất bản. DataHub làm nổi bật các trường hợp khác nhau tính toán cùng một chỉ số theo các cách khác nhau và đưa ra để con người giải quyết.

Cách Miro khiến các tác nhân AI hoạt động trên 10.000 bảng Snowflake

Miro, nền tảng hợp tác kỹ thuật số, đã sử dụng DataHub để theo dõi dòng chảy và phân tích tác động khi bắt đầu thử nghiệm các tác nhân phân tích đối với môi trường Snowflake của mình. Ronald Angel, quản lý sản phẩm cho nền tảng dữ liệu tại Miro, cho biết quy mô của tài sản dữ liệu ngay lập tức trở thành vấn đề. Gửi truy vấn ngôn ngữ tự nhiên trực tiếp đến Snowflake MCP tạo ra câu trả lời sai hơn 65% thời gian. Việc phơi bày hơn 10.000 bảng trực tiếp cho các tác nhân gây ra quá nhiều nhầm lẫn cho định hướng đáng tin cậy.

Miro đã giải quyết vấn đề bằng cách tổ chức dữ liệu thành các sản phẩm dữ liệu được xác định rõ ràng, hạn chế những gì tác nhân có thể thấy thay vì phơi bày lược đồ thô. Kiến trúc sản xuất chạy từ các yêu cầu của người dùng được gửi qua Claude Chat hoặc Claude Cowork thông qua một lớp ngữ cảnh, nơi MCP của DataHub ánh xạ ngôn ngữ tự nhiên đến các tài sản dữ liệu phù hợp, sau đó chuyển cho MCP của Snowflake để tạo SQL.

Angel cho biết lớp ngữ cảnh kéo vào siêu dữ liệu, mối quan hệ thực thể, lịch sử truy vấn và ý định kinh doanh cho mỗi bảng Snowflake, cụ thể là câu hỏi kinh doanh nào mà mỗi thực thể được thiết kế để trả lời. Các tín hiệu ngữ nghĩa đó cho phép tác nhân xác định các thực thể cơ sở dữ liệu chính xác trước khi viết SQL thay vì chỉ đoán từ lược đồ.

Pinecone, Oracle, Redis, Microsoft: DataHub phù hợp với ngăn xếp ngữ cảnh như thế nào

Các nhà cung cấp dữ liệu bao gồm Pinecone, Oracle và Redis đều có khả năng bộ nhớ ngữ cảnh. Về phía nền tảng, Microsoft đã xây dựng Fabric IQ như một lớp ngữ nghĩa cho ngữ cảnh.

Lập luận của DataHub không phải là sự tương đương về tính năng. Công ty đang định vị lớp ngữ cảnh là trung tính về nền tảng — cung cấp ngữ cảnh vào các điểm cuối hiện có như chế độ xem ngữ nghĩa Snowflake và Microsoft Fabric IQ thay vì thay thế chúng.

"Rất nhiều lần mọi người muốn trung tính về nền tảng khi nói đến lớp ngữ cảnh của họ," Das nói.

Kevin Petrie, nhà phân tích tại BARC, cho biết ông thấy khả năng tích hợp siêu dữ liệu đa dạng của DataHub cho cả đối tượng có cấu trúc và phi cấu trúc, bao gồm tài liệu và hình ảnh, là điểm khác biệt trên thị trường.

"Nhiều nhà cung cấp khác tập trung nhiều hơn vào các bảng có cấu trúc, cung cấp sự thật đáng tin cậy nhưng thường thiếu bối cảnh phong phú của các đối tượng văn bản," ông nói.

Michael Ni, Phó chủ tịch và nhà phân tích chính tại Constellation Research, cho biết đối với ông, điều nổi bật về lớp ngữ cảnh của DataHub là sự hỗ trợ chuyển đổi từ việc lập danh mục thụ động sang thông minh ngữ nghĩa được làm mới liên tục.

Ni mô tả sự cạnh tranh cho ngữ cảnh là cuộc chiến nền tảng lớn tiếp theo, lập luận rằng bất kỳ ai kiểm soát ngữ cảnh tại thời gian chạy sẽ kiểm soát lớp quyết định cho dữ liệu, tác nhân, quy trình công việc và quyết định.

"Người mua cần cẩn thận, vì nhiều nhà cung cấp chỉ hỗ trợ một phần các khả năng ngữ cảnh đầy đủ cần thiết cho các giải pháp AI và tác nhân," Ni nói. "Người mua cần rõ ràng về các yêu cầu quản lý ngữ cảnh của họ, vì bộ nhớ vectơ không phải là ý nghĩa kinh doanh, ý nghĩa kinh doanh không phải là quản trị, và quản trị không phải là thực thi."

Chia sẻ:FacebookX
Nội dung tổng hợp bằng AI, mang tính tham khảo. Xem bài gốc ↗