Pinecone tích hợp Nexus với Microsoft OneLake, tối ưu hóa hiệu suất cho AI Agents doanh nghiệp

Pinecone công bố tích hợp động cơ kiến thức Nexus với Microsoft OneLake, nhằm thay đổi cách các tác nhân AI truy cập và xử lý dữ liệu doanh nghiệp. Giải pháp mới này hứa hẹn giảm hơn 95% mức tiêu thụ token của mô hình ngôn ngữ lớn (LLM) và tăng tốc độ thực thi tác vụ lên tới 30 lần.

Pinecone vừa công bố sự tích hợp mới mẻ giữa động cơ kiến thức Nexus của mình và Microsoft OneLake, với mục tiêu thay đổi căn bản cách các tác nhân AI (AI Agents) tiếp cận và suy luận trên dữ liệu doanh nghiệp. Được giới thiệu tại hội nghị Microsoft Build 2026, sự tích hợp này cho phép các tác nhân AI truy vấn thông tin doanh nghiệp được lưu trữ trong OneLake thông qua các cấu trúc kiến thức có sẵn, thay vì phụ thuộc vào các quy trình truy xuất dữ liệu truyền thống.

Theo Pinecone, bước tiến này có thể giúp giảm mức tiêu thụ token của mô hình ngôn ngữ lớn (LLM) hơn 95%, tăng tốc độ thực thi tác vụ lên tới 30 lần và cải thiện tỷ lệ hoàn thành cho các khối lượng công việc AI trong doanh nghiệp.

Thách thức trong việc triển khai AI sản xuất

Thông báo này phản ánh một thách thức ngày càng lớn mà các tổ chức phải đối mặt khi triển khai các tác nhân AI vào môi trường thực tế (production). Mặc dù nhiều doanh nghiệp đã thành công trong việc tập trung hóa dữ liệu vận hành trong Microsoft Fabric và OneLake, nhưng các hệ thống AI thường tốn nhiều thời gian và tài nguyên tính toán để truy xuất, tổng hợp và diễn giải thông tin thô trước khi có thể hoàn thành một nhiệm vụ.

Nền tảng Nexus của Pinecone nhằm giải quyết vấn đề này bằng cách chuyển phần lớn công việc xử lý lên trên nguồn (upstream), tạo ra các cấu trúc kiến thức cụ thể theo nhiệm vụ (knowledge artifacts) ngay từ đầu. Điều này cho phép các tác nhân nhận được các phản hồi đã được ngữ cảnh hóa và trích dẫn nguồn, thay vì phải xử lý các tập dữ liệu thô phức tạp.

Nexus: Động cơ kiến thức dành cho AI Agents

Tại trung tâm của sự tích hợp này là Pinecone Nexus, được mô tả là một động cơ kiến thức được xây dựng chuyên biệt cho các tác nhân AI. Thay vì yêu cầu tác nhân truy xuất tài liệu và thực hiện suy luận tại thời điểm chạy (runtime), Nexus sẽ động tác tổng hợp các cấu trúc kiến thức cụ thể bao gồm dữ liệu liên quan, quyền truy cập, ngữ cảnh và trích dẫn.

Các tác nhân sau đó truy vấn các cấu trúc này thông qua KnowQL, ngôn ngữ truy vấn dành cho việc thu nạp kiến thức của Pinecone.

Cách tiếp cận này đánh dấu sự chuyển dịch khỏi các kiến trúc Retrieval-Augmented Generation (RAG) truyền thống, vốn là mô hình phổ biến cho các triển khai AI doanh nghiệp. Các hệ thống RAG truyền thống thường yêu cầu nhiều lệnh gọi truy xuất, thao tác xếp hạng, các giai đoạn lắp đặt prompt và các tương tác tốn kém với mô hình ngôn ngữ lớn trước khi đưa ra câu trả lời. Pinecone lập luận rằng các kiến trúc này ngày càng kém hiệu quả khi mở rộng quy mô, dẫn đến chi phí tăng cao, hiệu suất không đồng nhất và tỷ lệ hoàn thành nhiệm vụ giảm sút.

Tích hợp sâu với hệ sinh thái Microsoft Fabric

Sự tích hợp này được xây dựng dựa trên sự phổ biến ngày càng tăng của OneLake như một lớp dữ liệu trung tâm trong Microsoft Fabric. Các tổ chức sử dụng Fabric thường xuyên tập hợp dữ liệu có cấu trúc, tài sản thông minh kinh doanh (BI), tài liệu, hồ sơ vận hành và khối lượng công việc phân tích vào OneLake, tạo ra một nền tảng thống nhất cho các ứng dụng AI và dịch vụ dựa trên dữ liệu.

Nexus kết nối trực tiếp với hệ sinh thái này mà không yêu cầu các tổ chức di chuyển dữ liệu vào các kho lưu trữ vector riêng biệt hoặc xây dựng các đường ống nhập liệu bổ sung.

Khi một tác nhân thực thi nhiệm vụ, Nexus sẽ truy vấn trực tiếp OneLake, áp dụng các quyền hạn dựa trên vai trò và thuộc tính, tổng hợp cấu trúc kiến thức phù hợp và trả về phản hồi có cấu trúc. Theo Pinecone, mọi phản hồi đều bao gồm nguồn gốc và duy trì các kiểm soát tuân thủ xung quanh thông tin nhận dạng cá nhân và các chính sách quản trị đã được định nghĩa trong môi trường doanh nghiệp.

Tối ưu hóa hiệu quả vận hành và chi phí

Một trong những khía cạnh quan trọng nhất của thông báo này là sự tập trung vào hiệu quả vận hành. Khi các doanh nghiệp chuyển từ thử nghiệm AI sang triển khai thực tế, chi phí suy luận (inference), truy xuất và tạo ngữ cảnh đã trở thành mối lo ngại lớn. Các tổ chức thường phát hiện ra rằng khối lượng công việc của tác nhân tạo ra mức tiêu thụ token khó dự đoán và chi phí hạ tầng tăng vọt khi mở rộng quy mô trên các phòng ban.

Pinecone định vị Nexus là giải pháp cho vấn đề này bằng cách tách biệt việc chuẩn bị kiến thức khỏi suy luận tại thời điểm chạy. Thay vì liên tục yêu cầu các mô hình tiên tiến diễn giải dữ liệu doanh nghiệp thô, các tổ chức có thể chuẩn bị trước các cấu trúc kiến thức được tối ưu hóa để các tác nhân tiêu thụ trực tiếp. Công ty khẳng định điều này làm giảm đáng kể cả độ trễ và việc sử dụng mô hình, đồng thời cải thiện tính nhất quán và quản trị.

Thông báo này được đưa ra trong bối cảnh nhiều nhà cung cấp đang tập trung vào cái được gọi là "lớp kiến thức" (knowledge layer) cho các tác nhân AI. Khi các tổ chức triển khai số lượng lớn các tác nhân tự chủ và bán tự chủ, sự chú ý đang chuyển dịch từ chỉ tập trung vào các mô hình sang hạ tầng cần thiết để cung cấp cho các mô hình đó thông tin chính xác, được quản trị và phù hợp về ngữ cảnh.

Sự tích hợp OneLake là thành phần mới nhất trong nỗ lực rộng lớn hơn của Pinecone nhằm xây dựng cái mà họ gọi là "hạ tầng kiến thức". Các bản phát hành gần đây, bao gồm Nexus, KnowQL, Marketplace và các triển khai khu vực mới, cho thấy công ty đang định vị mình không chỉ là nhà cung cấp cơ sở dữ liệu vector mà còn là một nền tảng cơ bản cho các tác nhân AI doanh nghiệp.