Cloudflare ra mắt Agent Memory: Dịch vụ bộ nhớ bền vững được quản lý cho AI Agents

Cloudflare vừa công bố Agent Memory trong phiên bản beta riêng tư, một dịch vụ được quản lý giúp các tác nhân AI duy trì bộ nhớ bền vững qua các phiên làm việc. Dịch vụ này giải quyết vấn đề "context rot" bằng cách trích xuất ký ức có cấu trúc và sử dụng cơ chế truy xuất song song 5 kênh để tìm kiếm thông tin liên quan nhất.

Cloudflare đã công bố Agent Memory trong phiên bản beta riêng tư như một phần của sự kiện "Agents Week". Đây là một dịch vụ được quản lý cung cấp bộ nhớ bền vững cho các tác nhân AI (AI agents) xuyên suốt các phiên làm việc, nén ngữ cảnh và quá trình khởi động lại. Thay vì nhồi nhét mọi thứ vào cửa sổ ngữ cảnh (context window), dịch vụ này trích xuất các ký ức có cấu trúc từ các cuộc hội thoại và chỉ truy xuất những thông tin liên quan khi cần thiết.

Tyson Trautmann và Rob Sutter từ đội ngũ kỹ thuật của Cloudflare chia sẻ:

"Chúng tôi xây dựng Agent Memory vì các khối lượng công việc mà chúng tôi thấy trên nền tảng đã bộc lộ những khoảng trống mà các phương pháp hiện tại chưa giải quyết đầy đủ. Các tác nhân chạy trong vài tuần hoặc vài tháng trên các cơ sở mã và hệ thống sản xuất thực tế cần bộ nhớ vẫn hữu ích khi nó phát triển, chứ không chỉ là bộ nhớ hoạt động tốt trên một tập dữ liệu chuẩn."

Giải quyết vấn đề "Context Rot"

Dịch vụ này giải quyết vấn đề mà ngành công nghiệp gọi là "context rot" (sự suy giảm ngữ cảnh). Nghiên cứu cho thấy chất lượng đầu ra sẽ giảm đi khi ngữ cảnh được lấp đầy, ngay cả khi cửa sổ ngữ cảnh đã mở rộng vượt quá một triệu token. Các nhà phát triển đối mặt với sự căng thẳng giữa việc giữ lại mọi thứ (chất lượng giảm) hoặc cắt giảm dữ liệu mạnh tay (mất thông tin cần thiết). Nghiên cứu cũng chỉ ra rằng các mô hình có thể tạo ra kết quả tốt hơn với ít ngữ cảnh hơn nhưng có tính liên quan cao hơn, khiến bộ nhớ trở thành công cụ nâng cao chất lượng chứ không chỉ là công cụ quản lý lưu trữ.

Eran Stiller, kiến trúc sư phần mềm trưởng tại Cartesian và biên tập viên tại InfoQ, nhận định trên LinkedIn rằng thông báo này báo hiệu một sự chuyển đổi rộng lớn hơn trong cách thiết kế các hệ thống tác nhân.

"Ngay khi một tác nhân cần bộ nhớ, bạn không còn gặp vấn đề về chat nữa. Bạn gặp vấn đề về kiến trúc," Stiller viết, lập luận rằng bộ nhớ "đang bắt đầu trông giống ít hơn là một tính năng của mô hình và nhiều hơn là một cơ sở hạ tầng", với việc quản lý vòng đời, xác minh, nén và ranh giới cô lập trở thành những mối quan tâm hàng đầu.

Kiến trúc và Cơ chế hoạt động

Về mặt kiến trúc, ở phía tiếp nhận dữ liệu (ingestion), mỗi tin nhắn sẽ nhận được một ID định dạng nội dung SHA-256 để cho phép nạp lại một cách độc lập (idempotent). Bộ trích xuất chạy hai lượt song song: một lượt rộng chia nhỏ dữ liệu ở mức khoảng 10.000 ký tự và một lượt chi tiết tập trung vào các giá trị cụ thể như tên, giá cả và số phiên bản. Một bộ xác minh sẽ chạy tám kiểm tra trước khi các ký ức được phân loại thành bốn loại: sự thật (facts), sự kiện (events), hướng dẫn (instructions) và nhiệm vụ (tasks).

Ở phía truy xuất, năm kênh chạy song song và hợp nhất kết quả bằng cách sử dụng Reciprocal Rank Fusion (RRF): tìm kiếm văn bản đầy đủ, tra cứu khóa sự kiện chính xác, tìm kiếm tin nhắn thô, tìm kiếm vectơ trực tiếp và tìm kiếm vectơ HyDE tạo ra câu trả lời mang tính khai báo để bắt các sự không khớp về từ vựng. Cloudflare mặc định sử dụng Llama 4 Scout (17B MoE) để trích xuất và phân loại, và Nemotron 3 (120B MoE) chỉ để tổng hợp, nhận thấy rằng mô hình lớn hơn chỉ giúp ích ở giai đoạn tổng hợp.

Chia sẻ bộ nhớ giữa các tác nhân

Khả năng chia sẻ bộ nhớ là nơi Agent Memory vượt qua khả năng ghi nhớ của từng tác nhân riêng lẻ. Một hồ sơ bộ nhớ không nhất thiết phải thuộc về một tác nhân duy nhất. Các nhóm có thể chia sẻ một hồ sơ để kiến thức được học bởi một tác nhân mã hóa của kỹ sư, chẳng hạn như các quy ước, quyết định kiến trúc hoặc kiến thức bộ lạc, có sẵn cho mọi người. Cloudflare hiện đang sử dụng tính năng này nội bộ. Một trình đánh giá mã dạng tác nhân kết nối với Agent Memory đã học được cách im lặng khi một mẫu cụ thể đã được gắn cờ trước đó và tác giả chọn giữ nguyên nó.

Kristopher Dunham, người đã viết một đánh giá chi tiết về dịch vụ này, đã chỉ ra một số sự đánh đổi cần cân nhắc. Về sự phụ thuộc vào nhà cung cấp (vendor lock-in), Dunham lưu ý:

"Có thể xuất dữ liệu có nghĩa là bạn có thể trích xuất các sự kiện thô. Nó không có nghĩa là đường ống truy xuất của bạn có thể di chuyển được."

Ông cũng quan sát rằng chất lượng trích xuất phụ thuộc vào các mô hình phụ trợ mà nhà phát triển không kiểm soát được, và khuyên nên sử dụng công cụ ghi nhớ (remember tool) một cách rõ ràng cho các sự kiện quan trọng thay vì dựa vào việc nạp dữ liệu tự động.

Đánh giá và Cạnh tranh

Không gian bộ nhớ cho tác nhân ngày càng trở nên đông đúc. Mem0 cung cấp API đám mây được quản lý với lưu trữ vectơ, đồ thị và cặp khóa-giá trị. Động cơ Graphiti của Zep sử dụng đồ thị kiến thức thời gian theo dõi thời điểm các sự kiện là đúng. LangMem tích hợp với LangGraph nhưng yêu cầu tự lưu trữ (self-hosting). Letta (trước đây là MemGPT) cung cấp hệ thống phân cấp bộ nhớ nhiều tầng nơi các tác nhân kiểm soát ngữ cảnh của chính chúng.

Điều làm nên sự khác biệt trong dịch vụ của Cloudflare là phân phối ở biên mạng (edge distribution), tích hợp chặt chẽ với các nguyên tố tính toán của họ (Durable Objects, Vectorize, Workers AI) và kiến trúc truy xuất đa kênh.

Agent Memory hiện đang ở phiên bản beta riêng tư. Các nhà phát triển xây dựng tác nhân trên Cloudflare có thể tham gia danh sách chờ. Giá cả chưa được công bố.

Cloudflare ra mắt Agent Memory: Dịch vụ bộ nhớ bền vững được quản lý cho AI Agents

Giải quyết vấn đề "Context Rot"

Kiến trúc và Cơ chế hoạt động

Chia sẻ bộ nhớ giữa các tác nhân

Đánh giá và Cạnh tranh

Bài viết liên quan