Redis Iris ra mắt: Kiến trúc ngữ cảnh thay thế RAG để giải quyết bài toán AI tác nhân trong doanh nghiệp

Redis giới thiệu nền tảng Iris, một giải pháp kiến trúc ngữ cảnh và bộ nhớ mới nhằm giải quyết giới hạn của RAG truyền thống khi AI tác nhân tạo ra áp lực quá lớn lên hạ tầng truy xuất dữ liệu doanh nghiệp.

Redis từng xây dựng tên tuổi của mình như một lớp đệm (caching) giúp các ứng dụng web không bị sập khi phải chịu tải lượng truy cập khổng lồ. Tuy nhiên, vấn đề mà công ty này đang giải quyết hiện nay có cấu trúc tương tự nhưng khó khăn hơn nhiều: các tác nhân AI (AI agents) trong môi trường sản xuất đang thất bại không phải do mô hình sai, mà do dữ liệu nền tảng bị phân tán, lỗi thời và được cấu trúc dành cho con người thay vì máy móc. Các đường ống truy xuất (retrieval pipelines) được xây dựng cho các truy vấn đơn lẻ không thể hấp thụ khối lượng dữ liệu mà các tác nhân tạo ra.

Khoảng cách mà Redis đang nhắm tới mang tính cấu trúc: các tác nhân tạo ra lượng yêu cầu dữ liệu lớn hơn nhiều bậc so với người dùng, nhưng hầu hết các lớp truy xuất hiện nay đều được xây dựng cho quy mô của con người. Redis Iris, ra mắt vào thứ Hai vừa qua, là câu trả lời của công ty: một nền tảng ngữ cảnh và bộ nhớ nằm giữa tác nhân và dữ liệu mà nó cần để hành động. Nền tảng này kết hợp khả năng nhập dữ liệu thời gian thực, giao diện ngữ nghĩa tự động tạo các công cụ MCP từ mô hình dữ liệu kinh doanh và một máy chủ bộ nhớ tác nhân được xây dựng trên Redis Flex — một động cơ lưu trữ được viết lại chạy 99% dữ liệu trên bộ nhớ flash với chi phí chỉ bằng một phần mười so với lưu trữ trong bộ nhớ (in-memory) đơn thuần.

Thông báo này được đưa ra trong bối cảnh hạ tầng RAG (Retrieval-Augmented Generation) trong doanh nghiệp đang chuyển dịch mạnh mẽ. Theo báo cáo thị trường của VentureBeat, ý định mua hàng để áp dụng truy xuất lai (hybrid retrieval) đã tăng gấp ba lần trong quý đầu năm 2026. Việc tối ưu hóa truy xuất đã vượt qua đánh giá mô hình để trở thành ưu tiên đầu tư hàng đầu của doanh nghiệp lần đầu tiên.

Từ Cache đến Ngữ cảnh

Rowan Trollope, CEO của Redis, nhận định rằng sự chênh lệch về quy mô là lập luận cấu trúc đằng sau sự ra đời của Iris.

"Các công ty sẽ có số lượng tác nhân lớn hơn nhiều bậc so với con người," Trollope nói. "Số lượng tác nhân lớn hơn nhiều bậc so với con người đồng nghĩa với việc tải lên các hệ thống backend sẽ lớn hơn nhiều bậc."

Trollope so sánh tình hình này với kỷ nguyên di động: Khi các backend cũ kỹ được xây dựng cho nhân viên giao dịch tại chi nhánh đột nhiên phải phục vụ một triệu người dùng smartphone, Redis đã trở thành lớp đệm hấp thụ tải mà không cần xây dựng lại toàn bộ hệ thống.

Điểm khác biệt lần này là các tác nhân không thể tự viết phần mềm trung gian (middleware). Trong kỷ nguyên di động, một nhà phát triển sẽ ngồi cùng quản trị cơ sở dữ liệu, xác định các truy vấn mà ứng dụng cần và mã hóa logic caching vào một lớp middleware. Các tác nhân không thể làm điều đó. Chúng cần tìm đúng dữ liệu tại thời điểm chạy (runtime), thông qua các giao diện được xây dựng sẵn cho chúng, nếu không chúng sẽ bị đình trệ.

"Đây giống như ví dụ về cửa hàng tạp hóa và tủ lạnh," ông nói. "Nếu mỗi lần bạn muốn làm bánh mì kẹp, bạn đều phải chạy đến cửa hàng tạp hóa để lấy thực phẩm, thì điều đó không hiệu quả chút nào. Bạn đặt một cái tủ lạnh trong mỗi ngôi nhà, bạn lưu trữ một chút thực phẩm ở đó. Và đó là vị trí mà chúng tôi vẫn tồn tại trong stack hạ tầng."

Các thành phần của Redis Iris

Iris bao gồm năm thành phần bao phủ việc nhập dữ liệu, truy cập ngữ nghĩa, bộ nhớ và đệm.

Redis Data Integration (RDI). Đã có sẵn chung. RDI sử dụng các đường ống thay đổi dữ liệu (change data capture pipelines) để đồng bộ dữ liệu liên tục từ cơ sở dữ liệu quan hệ, kho dữ liệu và kho tài liệu vào Redis, với các kết nối cho Oracle, Snowflake, Databricks và Postgres.

Context Retriever. Đang trong bản xem trước. Các nhà phát triển xác định mô hình ngữ nghĩa của dữ liệu kinh doanh bằng cách sử dụng các mô hình pydantic và Redis tự động tạo các công cụ MCP mà tác nhân sử dụng để truy vấn trực tiếp, với quyền kiểm soát truy cập cấp độ hàng được thực thi phía máy chủ. Trollope mô tả sự thay đổi từ RAG cổ điển là một sự đảo ngược hướng đi.

"Đó chỉ là một sự lật ngược để cho phép tác nhân kéo dữ liệu thay vì giả định và nhồi nó vào đường ống," ông nói.

Agent Memory. Đang trong bản xem trước. Lưu trữ trạng thái ngắn hạn và dài hạn trên các phiên làm việc để các tác nhân mang theo ngữ cảnh mà không cần suy diễn lại nó ở mỗi lượt chuyển đổi.

Redis Flex. Một động cơ lưu trữ được viết lại chạy 99% dữ liệu trên SSD và 1% trong RAM, cung cấp khả năng truy xuất quy mô petabyte với độ trễ dưới mili-giây.

Redis Search và LangCache. Xương sống truy xuất và đệm ngữ nghĩa bên dưới nền tảng. LangCache giảm các cuộc gọi mô hình thừa bằng cách đệm các phản hồi prompt.

Góc nhìn của các chuyên gia

Ngành dữ liệu hiện nay đang chung một hướng đi. Mọi nhà cung cấp cơ sở dữ liệu lớn đều đang đưa ra lập luận về lớp ngữ cảnh. Các nhà cung cấp cơ sở dữ liệu truyền thống như Oracle đang tích hợp các lớp ngữ cảnh và bộ nhớ để đưa cơ sở dữ liệu quan hệ vào kỷ nguyên AI tác nhân. Các nhà cung cấp cơ sở dữ liệu vector chuyên dụng như Pinecone cũng đang làm điều tương tự, xây dựng một lớp kiến thức mới cho ngữ cảnh AI tác nhân.

Trollope định vị vị thế của Redis khác biệt về mặt cấu trúc so với sự cạnh tranh này.

"Để chúng tôi thắng, không ai khác phải thua," ông nói. Nhiều triển khai Redis đã chạy MongoDB hoặc Oracle làm hệ thống ghi backend. Iris phản ánh và đệm từ các hệ thống đó thay vì thay thế chúng.

Stephanie Walter, Practice Leader cho AI Stack tại HyperFRAME Research, nhận định rõ ràng về bối cảnh thị trường.

"Thị trường đang đi đến cùng một kết luận: các tác nhân không chỉ cần nhiều token hơn hay mô hình tốt hơn. Chúng cần ngữ cảnh được quản lý, cập nhật và có độ trễ thấp," Walter nói.

Bà nhận định sự khác biệt của Redis tập trung vào vị trí mà Redis đã chiếm giữ trong stack, gần với trạng thái vận hành nhạy cảm về độ trễ và dữ liệu thời gian thực.

"Điểm bán hàng không phải là 'RAG tốt hơn' mà là 'các tác nhân cần ngữ cảnh trực tiếp, bộ nhớ và truy xuất nhanh trong khi chúng thực sự đang làm việc'," bà nói.

Ảnh hưởng đối với doanh nghiệp

Đối với các doanh nghiệp đã xây dựng stack AI của họ xung quanh RAG, lớp truy xuất giúp họ đưa sản phẩm vào vận hành hiện nay không còn đủ để duy trì vị thế đó.

Kỷ nguyên RAG đang nhường chỗ cho kiến trúc ngữ cảnh. Mô hình RAG cổ điển đẩy dữ liệu vào tác nhân trước khi mô hình được gọi. Các triển khai sản xuất đang đảo ngược điều này: các tác nhân kéo những gì chúng cần tại thời điểm chạy thông qua các cuộc gọi công cụ, coi lớp dữ liệu là tài nguyên trực tiếp thay vì tải được tải trước. Các nhóm vẫn đang tối ưu hóa đường ống RAG đang giải quyết vấn đề của năm ngoái.

Lớp ngữ nghĩa hiện nay là hạ tầng sản xuất. Mô hình xác định các thực thể kinh doanh, mối quan hệ của chúng và các quy tắc truy cập giữa chúng cần được xây dựng, phiên bản và duy trì với sự kỷ luật giống như một đường ống dữ liệu. Hầu hết các tổ chức chưa bố trí nhân sự hay cấu trúc cho công việc này. Các doanh nghiệp xác định kiến trúc ngữ cảnh của họ ngay bây giờ sẽ là những người không phải xây dựng lại nó khi khối lượng công việc của tác nhân tăng quy mô.

Ngân sách đang chuyển dịch. Dữ liệu từ VB Pulse cho thấy đầu tư tối ưu hóa truy xuất tăng từ 19% lên 28,9% trong quý, vượt qua chi tiêu đánh giá lần đầu tiên. Các tổ chức đã spent năm trước đo lường chất lượng truy xuất của họ hiện đang chi tiêu để khắc phục nó. Lớp ngữ cảnh là một quyết định mua sắm tích cực, không phải là một mục trong lộ trình.

"Câu hỏi mua hàng đầu tiên không nên là 'Tôi có cần cơ sở dữ liệu vector, ngữ cảnh dài, bộ nhớ hay động cơ ngữ cảnh không?' mà nên là 'Tác nhân này cần biết cái gì, kiến thức đó mới đến mức nào, ai được phép truy cập nó và mỗi lần truy xuất tốn bao nhiêu?'" Walter nói.