Cloudflare ra mắt Agent Memory: Giải pháp lưu trữ ngữ cảnh giúp AI "ghi nhớ" thông minh hơn

Cloudflare vừa giới thiệu Agent Memory, một dịch vụ được quản lý giúp lưu trữ các dữ liệu hội thoại của AI bên ngoài ngữ cảnh chính để tiết kiệm không gian. Dịch vụ này cho phép các tác nhân AI truy xuất lại thông tin quan trọng khi cần thiết, giúp cải thiện hiệu suất và khả năng xử lý mà không bị giới hạn bởi kích thước cửa sổ ngữ cảnh.

Ngày nay, không chỉ bộ nhớ phần cứng đang trở nên khan hiếm, mà "bộ nhớ ngữ cảnh" (context memory) — tức là dữ liệu hội thoại được trao đổi với các mô hình AI — cũng đang trở thành một vấn đề nan giải.

Để giải quyết vấn đề này, Cloudflare đã tung ra giải pháp mang tên Agent Memory. Đây là một dịch vụ được quản lý, có nhiệm vụ chuyển các cuộc hội thoại của AI sang một nơi lưu trữ khác khi không gian bị hạn chế, sau đó đưa dữ liệu trở lại khi cần thiết.

"Nó mang lại cho các tác nhân AI một bộ nhớ bền vững, cho phép chúng ghi nhớ những gì quan trọng, quên đi những thứ không cần thiết và trở nên thông minh hơn theo thời gian," ông Tyson Trautmann (Giám đốc kỹ thuật cấp cao) và Rob Sutter (Quản lý kỹ thuật) của Cloudflare chia sẻ trong một bài đăng blog.

Vấn đề về cửa sổ ngữ cảnh (Context Window)

Các mô hình AI chỉ có thể chấp nhận một lượng đầu vào giới hạn, được gọi là ngữ cảnh. Lượng này được đo bằng đơn vị token và thay đổi tùy theo từng mô hình.

Ví dụ, Anthropic's Claude Opus 4.7 có cửa sổ ngữ cảnh 1 triệu token, có thể chứa khoảng 555.000 từ hoặc khoảng 2,5 triệu ký tự Unicode. Trong khi đó, dòng mô hình Gemma 4 của Google có cửa sổ ngữ cảnh từ 128.000 đến 256.000 token tùy thuộc vào phiên bản lớn hay nhỏ.

Mặc dù con số này có vẻ lớn, nhưng mỗi lời nhắc (prompt) đều đi kèm rất nhiều văn bản phụ trợ như lệnh hệ thống (system prompt), công cụ hệ thống, các tác nhân tùy chỉnh, tệp bộ nhớ, kỹ năng và bộ đệm tự động nén. Do đó, không gian ngữ cảnh thực tế có thể ít hơn từ 10 đến 20 phần trăm so với lý thuyết.

Agent Memory hoạt động như thế nào?

Việc lưu trữ các lời nhắc và phản hồi dưới dạng "bộ nhớ" giúp tận dụng tối đa không gian có sẵn bằng cách cung cấp một nơi để chuyển tải các chi tiết hội thoại hữu ích nhưng có thể không cần thiết cho mọi lượt trò chuyện.

Đồng thời, nhiều ngữ cảnh không phải lúc nào cũng tốt hơn. Đôi khi, các mô hình AI đưa ra kết quả tốt hơn khi được cung cấp ít ngữ cảnh hơn. Do đó, bộ nhớ có thể hữu ích trong việc trích xuất dữ liệu ra khỏi cuộc hội thoại để nâng cao chất lượng, cũng như là một lựa chọn quản lý lưu trữ.

Về cơ bản, Cloudflare đang đề xuất một thao tác CRUD (Tạo, Đọc, Cập nhật, Xóa) không đồng bộ. Ví dụ, sau khi lưu trữ một bộ nhớ về trình quản lý gói ưa thích của người dùng (ví dụ: pnpm), bộ nhớ đó có thể được gọi lại thông qua các lệnh mã hóa cụ thể.

const results = await profile.recall("What package manager does the user prefer?"); console.log(results.result); // "The user prefers pnpm over npm."

Tích hợp và quyền sở hữu dữ liệu

Agent Memory có thể được truy cập thông qua kết nối (binding) với Cloudflare Worker, cũng như qua API REST cho những hệ thống nằm ngoài hệ sinh thái Cloudflare Worker. Hiện tại, dịch vụ này đang trong giai đoạn thử nghiệm riêng tư (private beta).

Đối với những ai lo ngại về nhật ký trò chuyện AI của mình, Cloudflare khẳng định dữ liệu bộ nhớ thuộc về khách hàng.

"Agent Memory là một dịch vụ được quản lý, nhưng dữ liệu của bạn là của bạn," các kỹ sư của Cloudflare khẳng định. "Mọi bộ nhớ đều có thể xuất khẩu, và chúng tôi cam kết đảm bảo rằng kiến thức mà các tác nhân của bạn tích lũy trên Cloudflare có thể đi cùng bạn nếu nhu cầu của bạn thay đổi."

Đây là một tin vui, mặc dù người dùng có thể cần một chút công việc để chuyển đổi dữ liệu văn bản thô của các cuộc hội thoại để bộ nhớ hoạt động được trên một nền tảng khác.

Cloudflare ra mắt Agent Memory: Giải pháp lưu trữ ngữ cảnh giúp AI "ghi nhớ" thông minh hơn

Vấn đề về cửa sổ ngữ cảnh (Context Window)

Agent Memory hoạt động như thế nào?

Tích hợp và quyền sở hữu dữ liệu

Bài viết liên quan