Delta-mem: Kỹ thuật bộ nhớ mới giúp AI ghi nhớ tốt hơn mà chỉ tăng vỏn vẹn 0,12% tham số

Các nhà nghiên cứu từ Mind Lab và các trường đại học đã đề xuất delta-mem, một kỹ thuật nén thông tin lịch sử vào ma trận động để giải quyết vấn đề trí nhớ ngắn hạn của AI. Phương pháp này chỉ bổ sung 0,12% tham số cho mô hình nền tảng nhưng vẫn vượt trội so với các giải pháp RAG hiện tại trong các bài kiểm tra yêu cầu trí nhớ nặng.

Các tác nhân AI (AI agents) thường hay quên. Mỗi khi một trợ lý lập trình bị mất dấu luồng gỡ lỗi (debugging thread), hoặc một tác nhân phân tích dữ liệu phải xử lý lại cùng một ngữ cảnh mà nó đã tiếp nhận trước đó, đội ngũ phát triển phải trả phí bằng độ trễ, chi phí token và các quy trình làm việc mong manh.

Giải pháp mà hầu hết các đội nhóm thường hướng tới là mở rộng cửa sổ ngữ cảnh (context window) hoặc thêm nhiều RAG (Retrieval-Augmented Generation) hơn. Tuy nhiên, các phương pháp này ngày càng trở nên đắt đỏ và vẫn không hoạt động một cách đáng tin cậy.

Để giải quyết vấn đề này, các nhà nghiên cứu từ Mind Lab và một số trường đại học đã đề xuất delta-mem. Đây là một kỹ thuật hiệu quả nén thông tin lịch sử của mô hình vào một ma trận được cập nhật động mà không cần thay đổi chính mô hình đó. Module kết quả chỉ bổ sung thêm 0,12% số tham số của mô hình nền tảng — so với 76,40% của một phương án thay thế hàng đầu — trong khi vẫn vượt trội hơn nó trong các bài kiểm tra yêu cầu trí nhớ nặng. Delta-mem cho phép các mô hình liên tục tích lũy và tái sử dụng dữ liệu lịch sử, giảm sự phụ thuộc vào các cửa sổ ngữ cảnh khổng lồ hoặc các module truy xuất phức tạp bên ngoài.

Thách thức về bộ nhớ dài hạn

Giải pháp truyền thống hiện nay đơn giản là đổ toàn bộ thông tin vào cửa sổ ngữ cảnh của mô hình.

Tuy nhiên, theo Jingdi Lei, đồng tác giả của bài nghiên cứu, các hệ thống hiện tại coi bộ nhớ chỉ là một vấn đề quản lý ngữ cảnh. "Hoặc là chúng ta tiếp tục mở rộng cửa sổ ngữ cảnh, hoặc là chúng ta truy xuất nhiều tài liệu hơn thông qua RAG," Lei giải thích. "Các phương pháp này hữu ích và sẽ vẫn quan trọng, nhưng chúng trở nên ngày càng đắt đỏ và mong manh khi các tác nhân cần hoạt động trong các tương tác đa bước kéo dài. Hơn nữa, chúng không thực sự hoạt động giống trí nhớ con người mà giống tra cứu tài liệu hơn."

Trong môi trường doanh nghiệp, điểm nghẽn không chỉ là liệu mô hình có thể truy cập lịch sử hay không, mà là liệu nó có thể tái sử dụng lịch sử đó một cách hiệu quả, liên tục và với độ trễ thấp hay không. Các cơ chế chú ý (attention mechanism) tiêu chuẩn chịu chi phí tính toán theo cấp bậc hai khi độ dài chuỗi tăng lên. Hơn nữa, việc mở rộng cửa sổ ngữ cảnh không đảm bảo mô hình sẽ thực sự nhớ lại thông tin hiệu quả. Các mô hình thường bị suy giảm ngữ cảnh hay "context rot" khi bị quá tải bởi nhiều thông tin (thường xuyên xung đột), ngay cả khi chúng hỗ trợ một triệu token về mặt lý thuyết.

Các nhà nghiên cứu cho rằng cần các cơ chế bộ nhớ tiên tiến có thể biểu diễn thông tin lịch sử một cách nhỏ gọn và duy trì nó động trong suốt quá trình tương tác. Các giải pháp hiện tại có sự đánh đổi lớn và thường rơi vào ba mô hình:

Bộ nhớ dạng văn bản: Lưu trữ lịch sử dưới dạng văn bản được chèn vào ngữ cảnh — bị giới hạn bởi giới hạn cửa sổ và dễ mất mát thông tin khi nén.
Ngoài kênh (RAG): Mã hóa và truy xuất từ các module bên ngoài — làm tăng độ trễ, độ phức tạp tích hợp và khả năng không đồng nhất với mô hình nền.
Tham số: Mã hóa bộ nhớ vào trọng số mô hình thông qua các bộ điều hợp (adapters) — tĩnh sau khi huấn luyện, không thể thích ứng với thông tin mới trong quá trình tương tác trực tiếp.

Cơ chế hoạt động của Delta-mem

Để đạt được bộ nhớ nhỏ gọn và được cập nhật động, delta-mem nén các tương tác trong quá khứ của một tác nhân thành một "trạng thái trực tuyến của bộ nhớ liên kết" (Online State of Associative Memory - OSAM). Trạng thái này được duy trì dưới dạng một ma trận kích thước cố định giúp bảo toàn thông tin lịch sử trong khi mô hình ngôn ngữ cơ bản vẫn được đóng băng (frozen).

Đối với quy trình làm việc của doanh nghiệp, điều này dịch trực tiếp sang việc giải quyết các nút thắt vận hành. Lei lưu ý rằng một trợ lý lập trình bền vững, ví dụ, "có thể cần nhớ các quy ước dự án, các bước gỡ lỗi gần đây, sở thích của người dùng hoặc các quyết định trung gian trên toàn bộ quy trình làm việc". Tương tự, một tác nhân phân tích dữ liệu có thể "cần duy trì trạng thái nhiệm vụ, các giả định và quan sát trước đó trong khi lặp lại qua nhiều cuộc gọi công cụ".

Thay vì liên tục truy xuất và chèn lại toàn bộ lịch sử liên quan cho các tác vụ này, ma trận delta-mem cung cấp một cách thức chi phí thấp để mang theo các trạng thái tương tác hữu ích bên trong tính toán chuyển tiếp của mô hình.

Trong quá trình tạo văn bản, hệ thống không truy xuất các đoạn văn bản thô để thêm vào prompt. Thay vào đó, trạng thái ẩn (hidden state) hiện tại của LLM nền tảng được chiếu vào ma trận để truy xuất bộ nhớ cũ. Hoạt động này trích xuất các tín hiệu bộ nhớ liên kết có liên quan đến ngữ cảnh từ delta-mem. Các tín hiệu này sau đó được chuyển đổi thành các sửa đổi số học được áp dụng cho các tính toán của mô hình. Điều này điều hướng suy luận của mô hình tại thời điểm suy luận (inference) mà không thay đổi các tham số nội bộ của nó.

Sau mỗi tương tác, delta-mem cập nhật trạng thái trực tuyến bằng cách sử dụng "học quy tắc delta" (delta-rule learning). Khi thông tin mới đến, trạng thái trước đó đưa ra dự đoán về các giá trị chú ý kết quả. Sau đó, nó so sánh dự đoán này với giá trị thực tế và chỉnh sửa ma trận bộ nhớ dựa trên sự chênh lệch.

Cơ chế cập nhật này dựa vào "quy tắc delta có cổng" (gated delta-rule). Về cơ bản, module bộ nhớ có các bộ điều khiển khác nhau quyết định bao nhiêu bộ nhớ trước đó được giữ lại và bao nhiêu bộ nhớ mới được áp dụng. Sửa chữa lỗi này với khả năng quên được kiểm soát cho phép ma trận phát triển theo thời gian, giữ lại các liên kết lịch sử ổn định mà không bị lệch hướng bởi tiếng nhiễu ngắn hạn.

Các nhà nghiên cứu đã khám phá ba chiến lược để xác định khi nào và cách thức ma trận cập nhật:

Ghi trạng thái token (Token-state write): Bắt được các thay đổi chi tiết nhưng dễ bị tổn thương bởi tiếng nhiễu ngắn hạn.
Ghi trạng thái chuỗi (Sequence-state write): Trung bình hóa các token trong một đoạn thông điệp, làm mịn các cập nhật nhưng đánh đổi một số chi tiết cục bộ.
Ghi trạng thái đa trạng thái (Multi-state write): Phân tách bộ nhớ thành các trạng thái con cho các loại thông tin khác nhau như sự thật hoặc tiến độ nhiệm vụ.

Hiệu quả thực tế của Delta-mem

Các nhà nghiên cứu đã đánh giá delta-mem trên ba nền tảng LLM: Qwen3-8B, Qwen3-4B-Instruct và SmolLM3-3B. Họ cấu hình khung với một ma trận nhỏ gọn 8x8. Hệ thống được kiểm tra trên các chuẩn mực năng lực chung, bao gồm HotpotQA, GPQA-Diamond và IFEval. Nó cũng được đánh giá trên các tác vụ yêu cầu bộ nhớ nặng như LoCoMo (kiểm tra bộ nhớ hội thoại dài hạn) và Memory Agent Bench (đánh giá khả năng giữ lại, truy xuất, quên có chọn lọc và học vào thời gian kiểm tra trên các tương tác mở rộng).

Khung này được so sánh với các mô hình đại diện từ ba mô hình bộ nhớ hiện có: cơ sở bộ nhớ dạng văn bản (BM25 RAG, LLMLingua-2, MemoryBank), hệ thống tham số (Context2LoRA, MemGen) và phương pháp tiếp cận ngoài kênh MLP Memory.

Theo các nhà nghiên cứu, delta-mem vượt trội hơn các cơ sở so sánh trên toàn bộ bảng xếp hạng. Trên nền tảng Qwen3-4B-Instruct, biến thể ghi trạng thái token đạt điểm trung bình 51,66%, vượt qua easily mô hình nền tảng gốc (46,79%) và cơ sở mạnh nhất là Context2LoRA (44,90%). Trên Memory Agent Bench (yêu cầu bộ nhớ nặng), điểm trung bình tăng từ 29,54% lên 38,85%. Hiệu suất trên tác vụ phụ học vào thời gian kiểm tra gần như tăng gấp đôi từ 26,14 lên 50,50.

Tuy nhiên, điểm thu hút nhất là hiệu quả vận hành của hệ thống. Các nhà nghiên cứu đã kiểm tra khung trong cài đặt "không ngữ cảnh" nơi văn bản lịch sử bị loại hoàn toàn khỏi ngữ cảnh. Ngay cả khi không phát lại văn bản rõ ràng, delta-mem vẫn phục hồi thành công bằng chứng liên quan đến ngữ cảnh trong các tác vụ đa bước. Các nhà nghiên cứu lập luận rằng mô hình nhớ các tương tác trong quá khứ mà không cần phải tiêu thụ một lượng lớn token prompt.

Khung này cũng chỉ thêm 4,87 triệu tham số có thể huấn luyện, chỉ đại diện cho 0,12% của nền tảng Qwen3-4B-Instruct. Để so sánh, cơ sở MLP Memory yêu cầu 3 tỷ tham số, mở rộng lên 76,40% kích thước của nền tảng trong khi mang lại kết quả kém hơn. Khi độ dài prompt tăng lên đến 32.000 token trong các bài kiểm tra suy luận, khung duy trì dấu chân bộ nhớ GPU gần như giống hệt với một mô hình tiêu chuẩn chưa chỉnh sửa. Nó tránh được tình trạng phình bộ nhớ nặng nề ảnh hưởng đến các hệ thống bộ nhớ tiên tiến khác như MemGen và MLP Memory.

Các chiến lược cập nhật khác nhau cho thấy lợi ích tùy thuộc vào công suất mô hình cơ bản. Chiến lược ghi trạng thái chuỗi hiệu quả nhất cho các nền tảng mạnh hơn như Qwen3-8B. Các mô hình có khả năng cao hơn này sử dụng việc ghi cấp đoạn để làm mịn các cập nhật và giảm thiểu tiếng nhiễu cấp token. Ngược lại, chiến lược ghi trạng thái đa trạng thái thúc đẩy các bước nhảy vọt về hiệu suất cho các nền tảng nhỏ hơn như SmolLM3-3B. Đối với các mô hình công suất thấp hơn, việc tách biệt bộ nhớ thành nhiều trạng thái được chứng minh là rất quan trọng để giảm thiểu sự nhiễu loạn thông tin.

Triển khai Delta-mem trong hệ thống doanh nghiệp

Các nhà nghiên cứu đã phát hành mã nguồn cho delta-mem trên GitHub và các trọng số cho các bộ điều hợp đã huấn luyện của họ trên Hugging Face. Đối với các đội ngũ kỹ sư AI muốn tích hợp khung này vào ngăn xếp suy luận (inference stack) hiện có, quy trình yêu cầu tài nguyên tính toán tối thiểu.

"Trong thực tế, một đội ngũ kỹ sư sẽ bắt đầu từ một nền tảng đã được tinh lọc chỉ dẫn, gắn các module bộ điều hợp Delta-Mem vào các lớp chú ý được chọn, chỉ huấn luyện các tham số bộ điều hợp trên dữ liệu đa vòng hoặc ngữ cảnh dài liên quan đến lĩnh vực... và sau đó chạy suy luận với trạng thái bộ nhớ được cập nhật trực tuyến trong quá trình tương tác," Lei nói. Quan trọng là, các đội ngũ không cần một kho ngữ liệu tiền huấn luyện khổng lồ. Dữ liệu huấn luyện chỉ cần phản ánh hành vi bộ nhớ mục tiêu, chẳng hạn như đối thoại đa vòng, vết tác nhân hoặc quy trình làm việc trong lĩnh vực mà thông tin trước đó phải ảnh hưởng đến quyết định sau này.

Mặc dù việc nén lịch sử tương tác vào một ma trận toán học kích thước cố định tạo ra hiệu quả to lớn, nó cũng đi kèm các sự đánh đổi. Delta-mem không phải là sự thay thế không mất dữ liệu (lossless) cho nhật ký văn bản rõ ràng hoặc truy xuất tài liệu. Vì các mảnh thông tin khác nhau cạnh tranh trong cùng một trạng thái giới hạn, nên có nguy cơ pha trộn bộ nhớ.

"Delta-Mem hữu ích khi hệ thống cần trạng thái hành vi được cập nhật trực tuyến, liên tục và nhanh chóng," Lei nói. "RAG tốt hơn khi hệ thống cần truy xuất sự thực chính xác, trích dẫn, tuân thủ, khả năng kiểm toán hoặc quyền truy cập vào cơ sở kiến thức bên ngoài lớn." Việc ghi nhớ phong cách làm việc của người dùng hoặc quỹ đạo suy luận đa bước là rất phù hợp với delta-mem, trong khi việc truy xuất một hợp đồng pháp lý hoặc hướng dẫn y tế nên vẫn nằm trong cơ sở dữ liệu vector.

Điều này có nghĩa là kiến trúc doanh nghiệp thực tế nhất trong tương lai là một cách tiếp cận lai (hybrid). Delta-mem hoạt động như bộ nhớ làm việc nội bộ nhẹ nhàng, giảm nhu cầu truy xuất hoặc phát lại mọi thứ mọi lúc, trong khi RAG đóng vai trò là lớp bộ nhớ rõ ràng, dung lượng cao.

"Nhìn về phía trước, tôi không nghĩ rằng cơ sở dữ liệu vector sẽ trở nên lỗi thời," Lei nói. "Thay vào đó, tôi mong đợi các ngăn xếp AI doanh nghiệp sẽ trở nên nhiều lớp hơn. Chúng ta có thể sẽ thấy bộ nhớ làm việc ngắn hạn bên trong mô hình, bộ nhớ rõ ràng dài hạn trong các hệ thống truy xuất, và các lớp chính sách hoặc kiểm toán quyết định những gì nên được lưu trữ, truy xuất, quên hoặc hiển thị với người dùng."