MeMo: Mô hình bộ nhớ mới giúp nâng cấp LLM mà không cần huấn luyện lại, tăng hiệu suất 26%

MeMo là một khung framework mới giúp các mô hình ngôn ngữ lớn (LLM) tiếp thu kiến thức mới mà không cần huấn luyện lại toàn bộ. Nó sử dụng một mô hình bộ nhớ nhỏ riêng biệt để lưu trữ kiến thức, giúp tăng hiệu suất xử lý truy vấn phức tạp lên đáng kể. Phương pháp này giải quyết các hạn chế của RAG và fine-tuning truyền thống, đặc biệt trong việc xử lý dữ liệu ồn ào.

Việc cho phép các mô hình ngôn ngữ lớn (LLM) tiếp thu kiến thức mới sau khi đã hoàn tất đào tạo vẫn là một thách thức lớn đối với AI doanh nghiệp. Các giải pháp hiện nay thường quá tốn kém, quá chậm hoặc bị giới hạn bởi kích thước cửa sổ ngữ cảnh (context window).

MeMo, một khung làm việc từ các nhà nghiên cứu của nhiều trường đại học, mã hóa kiến thức mới vào một mô hình bộ nhớ nhỏ chuyên dụng hoạt động riêng biệt với LLM chính. Kiến trúc mô-đun này hoạt động với cả các mô hình mã nguồn mở và mã nguồn kín, đồng thời tránh được sự phức tạp của các quy trình RAG (Retrieval-Augmented Generation) và việc huấn luyện lại toàn bộ mô hình.

Các thí nghiệm cho thấy MeMo xử lý các truy vấn phức tạp một cách đáng tin cậy ngay cả khi quy trình truy xuất dữ liệu bị nhiễu. Nó tránh được hiện tượng "quên thảm khốc" (catastrophic forgetting) thường gặp khi fine-tuning trực tiếp và cung cấp một giải pháp tiết kiệm chi phí để cập nhật kiến thức liên tục.

Thách thức trong việc cập nhật bộ nhớ LLM

Các mô hình ngôn ngữ lớn thường bị "đóng băng" sau khi đào tạo xong và kiến thức nội tại của chúng vẫn giữ tĩnh cho đến khi chúng trải qua các đợt cập nhật tính toán khổng lồ tiếp theo. Hiện tại, các nhà phát triển dựa vào ba phương pháp chính để tích hợp kiến thức bên ngoài vào LLM, mỗi phương pháp đều có những nhược điểm riêng:

Các phương pháp phi tham số (Non-parametric methods), chẳng hạn như RAG và học trong ngữ cảnh (in-context learning), truy xuất các tài liệu liên quan từ cơ sở dữ liệu bên ngoài và chèn chúng trực tiếp vào câu lệnh (prompt) của mô hình. Mặc dù phổ biến, các phương pháp này bị giới hạn bởi kích thước cửa sổ ngữ cảnh.

Theo Armando Solar-Lezama, đồng tác giả của bài nghiên cứu, cơ sở dữ liệu vector gặp khó khăn cơ bản trong việc mã hóa toàn bộ ngữ nghĩa của một đoạn văn bản trong một vector duy nhất, sau đó khớp vector đó với một truy vấn, ngay cả khi sự liên quan của đoạn văn đó... có thể chỉ rõ ràng trong bối cảnh của các đoạn khác.

Các nhà nghiên cứu lưu ý rằng sự tương đồng ngữ nghĩa của các vector nhúng thường không tương ứng với những gì truy vấn của người dùng thực sự yêu cầu. Việc xử lý hàng nghìn token được truy xuất cũng tạo ra chi phí tính toán đáng kể và độ trễ khi suy luận (inference latency). Vấn đề nghiêm trọng nhất là các hệ thống RAG rất nhạy cảm với nhiễu. Các đoạn văn không liên quan hoặc được truy xuất kém thường làm giảm chất lượng phản hồi cuối cùng của mô hình.

Các phương pháp tham số (Parametric methods), như tiền huấn luyện liên tục hoặc fine-tuning có giám sát, cố gắng nội hóa kiến thức mới trực tiếp vào các trọng số (weights) của LLM. Việc cập nhật các mô hình LLM khổng lồ hiện đại là cực kỳ tốn kém và thường không thể thực hiện đối với các mô hình độc quyền, mã nguồn kín được ẩn sau các API. Fine-tuning cũng dễ gây ra hiện tượng quên thảm khốc. Buộc mô hình phải thích ứng với dữ liệu doanh nghiệp mới thường làm xói mòn các khả năng suy luận và rào chắn an toàn trước đó của nó.

Các phương pháp bộ nhớ tiềm ẩn (Latent memory methods), chẳng hạn như nén ngữ cảnh, cung cấp một giải pháp trung gian. Chúng nén kiến thức thành các "token mềm" (soft tokens) hoặc biểu diễn nhỏ gọn được thêm vào ngữ cảnh của mô hình trong quá trình suy luận. Nhược điểm chí mạng ở đây là "sự ghép nối biểu diễn" (representation coupling). Bộ nhớ được nén bị ràng buộc chặt chẽ với kiến trúc mô hình tạo ra nó; bạn không thể chuyển một bộ nhớ tiềm ẩn được đào tạo trên mô hình mã nguồn mở sang một mô hình mã nguồn kín.

Cơ chế hoạt động của MeMo

Khung MeMo (Memory as a Model) giới thiệu một kiến trúc mô-đun có hai thành phần riêng biệt. Mô hình MEMORY là một mô hình ngôn ngữ nhỏ được đào tạo cụ thể để mã hóa kiến thức mới vào các tham số của nó. Mô hình EXECUTIVE là một LLM có sẵn, bị đóng băng, đóng vai trò là động cơ suy luận. Khi người dùng đặt câu hỏi, mô hình EXECUTIVE coi mô hình MEMORY như một "người tiên tri" bên ngoài, đưa ra các truy vấn con mục tiêu để thu thập sự thật và tổng hợp các sự kiện đó thành câu trả lời cuối cùng.

Nguyên tắc thiết kế cốt lõi thúc đẩy MeMo là khái niệm "phản chiếu" (reflections). Phản chiếu là các cặp câu hỏi - câu trả lời (QA) được thiết kế để nắm bắt mọi khía cạnh có thể của một kho dữ liệu. Thay vì buộc AI phải xử lý một kho tài liệu khổng lồ, không có cấu trúc trong quá trình đào tạo, MeMo sử dụng một mô hình GENERATOR để chưng cất văn bản thô thành hàng nghìn cặp QA mục tiêu. Sau đó, mô hình MEMORY được fine-tune trên tập dữ liệu này để trả lời câu hỏi chỉ bằng kiến thức tham số của nó mà không cần đọc ngữ cảnh được truy xuất.

Tại thời điểm suy luận, sự tương tác giữa hai mô hình tuân theo một giao thức ba giai đoạn có cấu trúc:

Mô hình EXECUTIVE phân giải truy vấn phức tạp của người dùng thành một tập hợp các câu hỏi con nguyên tử. Mô hình MEMORY trả lời từng câu một cách độc lập để thiết lập các sự kiện cơ bản.
Sử dụng các manh mối ban đầu đó, mô hình EXECUTIVE đưa ra các truy vấn tiếp theo để thu hẹp các thực thể ứng viên cho đến khi nó tự tin hội tụ về một mục tiêu cụ thể.
Cuối cùng, mô hình EXECUTIVE truy vấn mô hình MEMORY để lấy các sự kiện hỗ trợ về thực thể mục tiêu đó và tổng hợp các đoạn truy xuất được thành một câu trả lời mạch lạc.

Kiến trúc này hợp nhất các điểm mạnh của ba mô hình bộ nhớ AI hiện có đồng thời vượt qua các cạm bẫy của chúng. Nó tận dụng các mô hình tiên tiến có sẵn bằng cách giữ việc lưu trữ bộ nhớ tách biệt với suy luận, đảm bảo tính tương thích với cả các mô hình mã nguồn mở và API đóng. Nó nội hóa kiến thức trực tiếp vào các tham số, nhưng cô lập các bản cập nhật vào một mô hình MEMORY nhỏ hơn, chuyên dụng để bảo vệ động cơ suy luận. Cuối cùng, nó tạo ra một tạo tác bộ nhớ có thể truy vấn được không bị ràng buộc với bất kỳ mô hình cụ thể nào và có thể được sử dụng với các họ LLM khác nhau.

Xử lý cập nhật kiến thức liên tục

Quản lý bộ nhớ của AI yêu cầu cập nhật liên tục khi các chính sách công ty thay đổi và các báo cáo mới được xuất bản. Thông thường, việc cập nhật các tham số của mô hình yêu cầu đào tạo lại nó từ đầu trên cả dữ liệu cũ và dữ liệu mới kết hợp. Khi cơ sở kiến thức phát triển, chi phí đào tạo lại tích lũy này trở nên không thể quản lý được.

Để xử lý các bản cập nhật liên tục một cách hiệu quả, MeMo dựa vào một kỹ thuật gọi là "hợp nhất mô hình" (model merging). Thay vì một giai đoạn đào tạo lại chung khổng lồ, MeMo đào tạo một mô hình MEMORY mới, độc quyền hoàn toàn trên các tài liệu mới được thêm vào. Hệ thống suy ra một "vector nhiệm vụ" (task vector) đại diện cho các thay đổi tham số được học từ dữ liệu mới. Các bản cập nhật này sau đó được hợp nhất về mặt toán học vào các trọng số của mô hình MEMORY ban đầu.

Cách tiếp cận này làm giảm số giờ tính toán cần thiết để giữ cho hệ thống được cập nhật đồng thời tránh được sự nhiễu loạn gây ra hiện tượng quên thảm khốc.

Tuy nhiên, hiệu quả này đi kèm một sự đánh đổi: việc hợp nhất mô hình gây ra mức giảm độ chính xác từ 11% đến 19% so với việc đào tạo lại hoàn toàn, tùy thuộc vào mô hình suy luận được sử dụng.

MeMo trong thực tế

Để đo lường hiệu quả trong thế giới thực, nhóm nghiên cứu đã đánh giá MeMo dựa trên một số tiêu chuẩn ngành yêu cầu suy luận đa bước phức tạp trên nhiều tài liệu.

Các nhà nghiên cứu đã sử dụng Qwen2.5-32B-Instruct làm mô hình GENERATOR để chưng cất văn bản thô thành các phản chiếu. Đối với mô hình MEMORY chính, họ triển khai Qwen2.5-14B-Instruct. Họ cũng xác thực cách tiếp cận này trên các mô hình nhỏ hơn 1-2B tham số trên các kiến trúc khác nhau, bao gồm Gemma3-1B.

Đối với mô hình suy luận EXECUTIVE, họ đã kiểm tra cả Qwen2.5-32B mã nguồn mở và Gemini 3 Flash độc quyền của Google.

Họ so sánh MeMo với giới hạn trên "Truy xuất Hoàn hảo" (nơi các tài liệu chính xác được cung cấp thủ công) và một số hệ thống truy xuất nâng cao, bao gồm tìm kiếm BM25 truyền thống, truy xuất vector dày đặc và RAG dựa trên đồ thị hiện đại (HippoRAG2). Họ cũng kiểm tra "Cartridges", một phương pháp gần đây tải một KV-cache đã đào tạo lên mô hình trong quá trình suy luận.

MeMo đã thống trị trong suy luận tài liệu dài. Trên tiêu chuẩn NarrativeQA, MeMo đạt độ chính xác 53,58% khi kết hợp với Gemini 3 Flash, theo các nhà nghiên cứu. HippoRAG2 chỉ đạt tối đa 23,21%.

Các hệ thống doanh nghiệp thường cần tổng hợp các câu trả lời phức tạp, chẳng hạn như duyệt qua các khung pháp lý chồng chéo được viết độc lập bởi các cơ quan khác nhau, hoặc củng cố thông tin chi tiết trên một cơ sở mã khổng lồ và tài liệu bên ngoài. Các hệ thống RAG truyền thống thường thất bại ở đây vì chúng chạm đến giới hạn cửa sổ ngữ cảnh và không thể kết nối các khái niệm trải dài hàng trăm trang. MeMo thành công vì các kết nối đó được ánh xạ và nội hóa bên trong mô hình MEMORY trong quá trình đào tạo.

Các thí nghiệm cũng tiết lộ một lợi thế lớn khác: việc nâng cấp động cơ suy luận không yêu cầu đào tạo lại. Chỉ cần chuyển đổi mô hình EXECUTIVE từ mã nguồn mở Qwen sang Gemini 3 Flash độc quyền đã tăng hiệu suất của MeMo lên 26,73% trên NarrativeQA và 11,90% trên tiêu chuẩn MuSiQue. Đối với các chuyên gia thực hành, điều này có nghĩa là bạn có thể đào tạo một mô hình MEMORY một cách an toàn trên dữ liệu riêng tư của mình và ngay lập tức cắm nó vào các API thương mại mới nhất, liên tục nâng cấp trí tuệ hệ thống mà không phát sinh chi phí đào tạo mới.

MeMo cũng xử lý dữ liệu nhiễu đặc biệt tốt. Khi các nhà nghiên cứu cố tình làm đầy tập dữ liệu với các tài liệu không liên quan (lên đến gấp đôi lượng thông tin hữu ích), hiệu suất của HippoRAG2 giảm 11,55%. Hiệu suất của MeMo vẫn tương đối ổn định, giảm ít hơn 2%. Các cơ sở kiến thức doanh nghiệp thường lộn xộn, đầy tài liệu trùng lặp và chính sách lỗi thời. Các hệ thống RAG tiêu chuẩn gặp khó khăn với nhiễu này, kéo các đoạn văn không chính xác vào câu lệnh và gây ra ảo giác. Vì mô hình EXECUTIVE của MeMo tương tác với một "người tiên tri" được tổng hợp thay vì các đoạn tài liệu thô, nó vẫn rất mạnh mẽ trước dữ liệu doanh nghiệp không có tổ chức.

Hạn chế và đánh đổi

Đối với các nhóm kỹ thuật muốn triển khai MeMo, có một số hạn chế chính cần cân nhắc.

Khác với các hệ thống RAG truyền thống có thể lập chỉ mục nhanh các tài liệu thô vào cơ sở dữ liệu vector, MeMo yêu cầu chi phí đào tạo trước cho mỗi kho dữ liệu mới. Quy trình tạo dữ liệu được sử dụng để tổng hợp tập dữ liệu phản chiếu đào tạo rất tốn kém về mặt tính toán. Ví dụ, nhóm lưu ý rằng "tạo tập dữ liệu phản chiếu QA đầy đủ mất khoảng 240 giờ GPU trên NVIDIA H200", trong khi đào tạo một mô hình MEMORY 14B tham số "mất khoảng 180 giờ GPU H200".

Vì mô hình MEMORY là một mạng nơ-ron kích thước cố định, khả năng nội hóa kiến thức của nó bị giới hạn bởi dung lượng biểu diễn của nó. Mặc dù các nhà nghiên cứu không gặp giới hạn cứng trong quá trình đo lường chuẩn, họ giả định rằng "các kho dữ liệu đủ lớn hoặc có mật độ thông tin cao sẽ vượt quá những gì một mô hình MEMORY kích thước cố định có thể nén và biểu diễn chính xác".

Cuối cùng, vì MeMo tổng hợp câu trả lời từ bộ nhớ tham số thay vì truy xuất các đoạn văn bản chính xác, nó làm mờ nguồn gốc của thông tin. Điều này gây khó khăn cho việc quy các tuyên bố cụ thể cho các tài liệu nguồn ban đầu, gây ra vấn đề tuân thủ quan trọng đối với các ứng dụng doanh nghiệp yêu cầu quy trình kiểm toán nghiêm ngặt.

Quyết định giữa MeMo và RAG truyền thống phụ thuộc vào heuristic "tra cứu so với tổng hợp", cùng với tính biến động của dữ liệu. Các nhà nghiên cứu tư vấn rằng "RAG truyền thống sẽ được ưu tiên khi câu trả lời nằm trong một tài liệu duy nhất hoặc khi có một nguồn được xác định rõ... MeMo sẽ được ưu tiên khi nhiệm vụ chuyển từ tra cứu sang tổng hợp một câu trả lời từ thông tin phân tán trên nhiều đoạn". Nếu kho dữ liệu của bạn thay đổi nhanh chóng (ví dụ: nguồn cấp dữ liệu hàng ngày) và bạn cần trích dẫn nguồn chính xác, RAG vẫn là lựa chọn tốt hơn do chi phí đào tạo trước của MeMo. Nếu kho dữ liệu của bạn bao gồm kiến thức lĩnh vực tổng quát phát triển chậm so với thể tích của nó, MeMo cung cấp khả năng suy luận vượt trội hơn nhiều. Các nhóm cũng có thể áp dụng kiến trúc định tuyến lai trong sản xuất: gửi các truy vấn "tra cứu" đến cơ sở dữ liệu vector tiêu chuẩn và các truy vấn "tổng hợp" đến mô hình MEMORY.

Daniela Rus, đồng tác giả của bài báo và giám đốc Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo MIT (CSAIL), nhận định: "Nhìn về phía trước, tôi mong đợi các mô hình bộ nhớ sẽ trở thành một thành phần kiến trúc tiêu chuẩn bên cạnh việc truy xuất, theo cùng cách mà bộ nhớ đệm và lập chỉ mục là các thành phần tiêu chuẩn của bất kỳ hệ thống dữ liệu nghiêm túc nào ngày nay."