MeMo của MIT cho phép nâng cấp LLM tốt hơn mà không cần huấn luyện lại, hiệu suất tăng 26%

Việc giúp các mô hình ngôn ngữ lớn (LLM) tiếp thu kiến thức mới sau khi huấn luyện vẫn là một thách thức lớn đối với AI doanh nghiệp. MeMo, một khung mới từ các nhà nghiên cứu, mã hóa kiến thức mới vào một mô hình bộ nhớ nhỏ riêng biệt, hoạt động song song với LLM chính. Kiến trúc mô-đun này giúp nâng cấp hiệu suất lên tới 26% mà không cần huấn luyện lại từ đầu.

Việc giúp các mô hình ngôn ngữ lớn (LLM) tiếp thu kiến thức mới sau khi đã hoàn tất quá trình huấn luyện vẫn là một rào cản lớn đối với trí tuệ nhân tạo doanh nghiệp. Các giải pháp hiện nay thường quá tốn kém, quá chậm hoặc bị giới hạn bởi kích thước cửa sổ ngữ cảnh.

MeMo (Memory as a Model), một khung làm việc từ các nhà nghiên cứu tại nhiều trường đại học, mã hóa kiến thức mới vào một mô hình bộ nhớ nhỏ chuyên biệt hoạt động tách biệt với LLM chính. Kiến trúc mô-đun này hoạt động với cả các mô hình mã nguồn mở và độc quyền, đồng thời vượt qua sự phức tạp của các quy trình RAG (Retrieval-Augmented Generation) và việc huấn luyện lại toàn bộ mô hình.

Các thí nghiệm cho thấy MeMo xử lý các truy vấn phức tạp một cách đáng tin cậy ngay cả khi quy trình truy xuất dữ liệu bị nhiễu. Nó tránh được hiện tượng "quên thảm khốc" thường gặp khi tinh chỉnh trực tiếp và cung cấp một giải pháp tiết kiệm chi phí để cập nhật kiến thức liên tục.

Thách thức trong việc cập nhật bộ nhớ LLM

Các mô hình ngôn ngữ lớn thường bị "đóng băng" sau khi huấn luyện, và kiến thức nội tại của chúng vẫn giữ tĩnh cho đến khi chúng trải qua các đợt cập nhật tính toán khổng lồ tiếp theo. Hiện tại, các nhà phát triển dựa vào ba phương pháp chính để tích hợp kiến thức bên ngoài vào LLM, mỗi phương pháp đều có những nhược điểm riêng:

Các phương pháp phi tham số, chẳng hạn như RAG và học tập trong ngữ cảnh (in-context learning), truy xuất các tài liệu liên quan từ cơ sở dữ liệu bên ngoài và chèn chúng trực tiếp vào câu lệnh của mô hình. Mặc dù phổ biến, các phương pháp này bị giới hạn bởi kích thước cửa sổ ngữ cảnh. Các hệ thống RAG cũng rất nhạy cảm với nhiễu; các đoạn văn bản không liên quan thường làm giảm chất lượng phản hồi cuối cùng của mô hình.
Các phương pháp tham số, như tiền huấn luyện liên tục hoặc tinh chỉnh có giám sát, cố gắng nội hóa kiến thức mới trực tiếp vào trọng số của LLM. Việc cập nhật các LLM khổng lồ hiện nay cực kỳ tốn kém và thường không thể thực hiện đối với các mô hình độc quyền. Hơn nữa, tinh chỉnh dễ gây ra hiện tượng quên thảm khốc, nơi việc ép buộc mô hình thích nghi với dữ liệu mới thường xóa bỏ các khả năng suy luận và rào chắn an toàn trước đó.
Các phương pháp bộ nhớ tiềm ẩn, chẳng hạn như nén ngữ cảnh, cung cấp một giải pháp trung gian. Tuy nhiên, nhược điểm chí mạng là "sự ghép nối biểu diễn". Bộ nhớ nén bị ràng buộc chặt chẽ với kiến trúc mô hình tạo ra nó; bạn không thể chuyển bộ nhớ tiềm ẩn được huấn luyện trên mô hình mã nguồn mở sang một mô hình độc quyền.

Cơ chế hoạt động của MeMo

Khung MeMo giới thiệu một kiến trúc mô-đun gồm hai thành phần riêng biệt:

Mô hình MEMORY (Bộ nhớ): Một mô hình ngôn ngữ nhỏ được huấn luyện đặc biệt để mã hóa kiến thức mới vào các tham số của nó.
Mô hình EXECUTIVE (Điều hành): Một LLM có sẵn, bị đóng băng, đóng vai trò là động cơ suy luận.

Khi người dùng đặt câu hỏi, mô hình EXECUTIVE coi mô hình MEMORY như một "người tiên tri" bên ngoài, đưa ra các truy vấn con nhắm mục tiêu để thu thập sự thật và tổng hợp các sự kiện đó thành câu trả lời cuối cùng.

Nguyên tắc thiết kế cốt lõi của MeMo là khái niệm "phản ánh" (reflections). Đây là các cặp câu hỏi - câu trả lời (QA) được thiết kế để nắm bắt mọi khía cạnh có thể của một kho dữ liệu. Thay vì buộc AI phải xử lý một kho tài liệu khổng lồ không có cấu trúc, MeMo sử dụng mô hình GENERATOR để chưng cất văn bản thô thành hàng nghìn cặp QA mục tiêu. Sau đó, mô hình MEMORY được tinh chỉnh trên tập dữ liệu này để trả lời câu hỏi chỉ bằng kiến thức tham số của nó mà không cần đọc ngữ cảnh truy xuất.

Tại thời điểm suy luận, sự tương tác giữa hai mô hình tuân theo một giao thức ba giai đoạn:

Mô hình EXECUTIVE phân giải truy vấn phức tạp của người dùng thành một tập hợp các câu hỏi con nguyên tử. Mô hình MEMORY trả lời từng câu một để thiết lập các sự thật cơ bản.
Sử dụng các manh mối ban đầu đó, mô hình EXECUTIVE đưa ra các truy vấn tiếp theo để thu hẹp các thực thể ứng viên cho đến khi hội tụ tự tin vào một mục tiêu cụ thể.
Cuối cùng, mô hình EXECUTIVE truy vấn mô hình MEMORY để lấy các sự kiện hỗ trợ về thực thể mục tiêu đó và tổng hợp các đoạn truy xuất thành một câu trả lời mạch lạc.

Xử lý cập nhật kiến thức liên tục

Quản lý bộ nhớ của AI đòi hỏi cập nhật liên tục khi chính sách công ty thay đổi và các báo cáo mới được xuất bản. Thông thường, việc cập nhật tham số mô hình yêu cầu huấn luyện lại từ đầu trên cả dữ liệu cũ và mới. Khi cơ sở kiến thức tăng lên, chi phí huấn luyện tích lũy này trở nên không thể quản lý được.

Để xử lý các bản cập nhật liên tục một cách hiệu quả, MeMo dựa vào một kỹ thuật gọi là "hợp nhất mô hình" (model merging). Thay vì một giai đoạn huấn luyện lại chung khổng lồ, MeMo huấn luyện một mô hình MEMORY mới, độc quyền hoàn toàn trên các tài liệu mới được thêm vào. Hệ thống suy ra một "vector tác vụ" đại diện cho các thay đổi tham số được học từ dữ liệu mới. Các bản cập nhật này sau đó được hợp nhất về mặt toán học vào trọng số của mô hình MEMORY ban đầu.

Cách tiếp cận này làm giảm số giờ tính toán cần thiết để giữ cho hệ thống được cập nhật đồng thời tránh được sự nhiễu loạn gây ra hiện tượng quên thảm khốc. Tuy nhiên, hiệu quả này đi kèm một sự đánh đổi: hợp nhất mô hình gây ra mức giảm độ chính xác từ 11% đến 19% so với việc huấn luyện lại hoàn toàn, tùy thuộc vào mô hình suy luận được sử dụng.

MeMo trong thực tế

Để đo lường hiệu quả trong thế giới thực, nhóm nghiên cứu đã đánh giá MeMo dựa trên một số điểm chuẩn ngành yêu cầu suy luận đa bước phức tạp trên nhiều tài liệu.

MeMo đã thống trị trong suy luận tài liệu dài. Trên điểm chuẩn NarrativeQA, MeMo đạt độ chính xác 53,58% khi kết hợp với Gemini 3 Flash, trong khi HippoRAG2 (một hệ thống RAG dựa trên đồ thị hiện đại) chỉ đạt tối đa 23,21%.

Các thí nghiệm cũng tiết lộ một lợi thế lớn khác: việc nâng cấp động cơ suy luận không yêu cầu huấn luyện lại. Chỉ cần chuyển đổi mô hình EXECUTIVE từ mã nguồn mở Qwen sang Gemini 3 Flash độc quyền đã giúp tăng hiệu suất của MeMo lên 26,73% trên NarrativeQA và 11,90% trên điểm chuẩn MuSiQue. Điều này có nghĩa là các nhóm có thể huấn luyện một mô hình MEMORY an toàn trên dữ liệu riêng tư của họ và kết nối ngay lập tức với các API thương mại mới nhất.

MeMo cũng xử lý dữ liệu nhiễu cực kỳ tốt. Khi các nhà nghiên cứu cố tình làm đầy tập dữ liệu với các tài liệu không liên quan, hiệu suất của HippoRAG2 giảm mạnh, trong khi hiệu suất của MeMo vẫn tương đối ổn định.

Hạn chế và đánh đổi

Đối với các nhóm kỹ thuật muốn triển khai MeMo, có một số hạn chế chính cần cân nhắc.

Khác với các hệ thống RAG truyền thống có thể lập chỉ mục nhanh các tài liệu thô vào cơ sở dữ liệu vector, MeMo yêu cầu chi phí huấn luyện trước cho mỗi kho dữ liệu mới. Quy trình tạo dữ liệu để tổng hợp tập dữ liệu huấn luyện "phản ánh" rất tốn kém về mặt tính toán. Ví dụ, việc tạo tập dữ liệu QA phản ánh đầy đủ mất khoảng 240 giờ GPU trên NVIDIA H200, trong khi huấn luyện một mô hình MEMORY 14B tham số mất khoảng 180 giờ GPU H200.

Ngoài ra, vì MeMo tổng hợp câu trả lời từ bộ nhớ tham số thay vì truy xuất các đoạn văn bản chính xác, nó làm mờ nguồn gốc của thông tin. Điều này gây khó khăn trong việc quy các tuyên bố cụ thể cho các tài liệu nguồn ban đầu, gây ra vấn đề tuân thủ quan trọng đối với các ứng dụng doanh nghiệp yêu cầu quy trình kiểm toán nghiêm ngặt.

Các nhà nghiên cứu khuyên rằng: "RAG truyền thống sẽ được ưu tiên khi câu trả lời nằm trong một tài liệu duy nhất hoặc khi có một nguồn được xác định rõ... MeMo sẽ được ưu tiên khi nhiệm vụ chuyển từ tra cứu sang tổng hợp câu trả lời từ thông tin phân tán trên nhiều đoạn văn bản."

Daniela Rus, đồng tác giả bài báo và giám đốc Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo MIT (CSAIL), nhận định: "Nhìn về phía trước, tôi mong đợi các mô hình bộ nhớ sẽ trở thành một thành phần kiến trúc tiêu chuẩn bên cạnh việc truy xuất, theo cách tương tự như bộ nhớ đệm và lập chỉ mục là các thành phần tiêu chuẩn của bất kỳ hệ thống dữ liệu nghiêm túc nào ngày nay."