Scandal MemPalace: Khi tên tuổi ngôi sao Hollywood che mờ những điểm số benchmark AI giả mạo

Dự án mã nguồn mở MemPalace bất ngờ thu hút hàng triệu lượt xem nhờ gắn liền với tên diễn viên Milla Jovovich và tuyên bố đạt điểm tuyệt đối trên các bài kiểm tra bộ nhớ AI. Tuy nhiên, phân tích kỹ thuật đã chỉ ra rằng các điểm số này là kết quả của sai sót trong phương pháp đo lường và "hô biến" số liệu, tạo nên khoảng cách đáng báo động giữa tài liệu nội bộ và chiến dịch truyền hiệu quá đà.

Hôm qua, tài khoản X của nhà phát triển Ben Sigman đã đăng tải thông tin ra mắt một dự án mã nguồn mở về bộ nhớ AI có tên MemPalace. Bài đăng này lập tức tạo ra một cơn sốt khi tuyên bố dự án đạt được "100% trên LoCoMo" và "điểm số hoàn hảo đầu tiên từng được ghi nhận trên LongMemEval. 500/500 câu hỏi, 100% mọi danh mục". Điểm đặc biệt gây chú ý là dự án này ghi nhận diễn viên Milla Jovovich là đồng tác giả, với tài khoản GitHub lưu trữ mã nguồn là milla-jovovich/mempalace.

Chỉ trong vòng chưa đầy 24 giờ, kho lưu trữ này đã thu về khoảng 5.400 sao (stars) và bài đăng giới thiệu đạt hơn 1,5 triệu lượt xem. Để so sánh, các dự án bộ nhớ mã nguồn mở khác có kiến trúc tương tự và số liệu trung thực thường chỉ nhận được vài chục sao trong tuần đầu tiên.

Biến số tạo nên sự chênh lệch khổng lồ về mức độ quan tâm ở đây không phải là kỹ thuật, mà chính là cái tên người nổi tiếng gắn liền với dự án. Dù thực tế cộng tác ra sao, việc gắn tên một ngôi sao Hollywood đã giúp một kho lưu trữ mới tạo 2 ngày tiếp cận 1,5 triệu người chỉ qua một bài đăng. Tuy nhiên, vấn đề nằm ở chỗ: các số liệu benchmark được tung ra này hoàn toàn không chính xác.

Tại Penfield, nơi chúng tôi phát triển một dự án bộ nhớ khác, cách đây vài tháng chúng tôi đã công bố một cuộc kiểm toán về bộ dữ liệu chuẩn (ground truth) của LoCoMo, ghi nhận khoảng 99 câu trả lời sai, ảo giác hoặc bị gán nhầm. Do đó, về mặt toán học, việc đạt 100% trên phiên bản công khai của LoCoMo là điều không thể. Khi nhìn thấy bài đăng ra mắt của MemPalace, chúng tôi đã tìm cách hiểu làm thế nào con số "bất khả thi" này lại được tạo ra.

Điều chúng tôi tìm thấy là một tập hợp các lỗi phương pháp luận bao hàm gần như mọi chế độ thất bại mà lớp benchmark bộ nhớ AI hiện nay đang gặp phải. Đáng chú ý nhất là tài liệu nội bộ của chính dự án thừa nhận một cách trung thực hầu hết các lỗi này, trong khi bài đăng truyền thông lại lược bỏ mọi điều kiện quan trọng đó.

Lỗ hổng trong điểm số LoCoMo

LoCoMo là một benchmark bộ nhớ hội thoại gồm 10 cuộc hội thoại dài và 1.986 cặp câu-trả lời. Công cụ chạy LoCoMo của MemPalace tạo ra con số 100% bằng cách cài đặt top_k=50. Chính tài liệu BENCHMARKS.md của dự án cũng thừa nhận vấn đề này:

"Kết quả 100% LoCoMo với top-k=50 có một vấn đề về cấu trúc: mỗi 10 cuộc hội thoại chỉ có 19–32 phiên, nhưng top-k=50 vượt quá số lượng đó. Điều này có nghĩa là phiên chuẩn (ground-truth session) luôn nằm trong nhóm ứng cử viên bất kể thứ hạng của mô hình embedding. Bước rerank của Sonnet thực chất chỉ đang làm bài đọc hiểu trên tất cả các phiên — bước truy xuất embedding bị bỏ qua hoàn toàn."

Việc cài đặt top_k=50 đối với một nhóm ứng cử viên tối đa chỉ là 32 đồng nghĩa với việc truy xuất toàn bộ cuộc hội thoại. Ở cài đặt này, quy trình giảm xuống thành: đổ mọi phiên vào Claude Sonnet và hỏi Sonnet cái nào khớp. Đây không phải là truy xuất (retrieval) và cũng không phải là bộ nhớ. Kiến trúc bộ nhớ không đóng góp gì vào điểm số này.

Những con số trung thực của LoCoMo theo cùng một tệp tài liệu là 60,3% R@10 khi không có rerank và 88,9% R@10 với điểm số hybrid của dự án. Đây là những con số thực tế nhưng không có gì nổi bật. Con số 100% không nên được citado, bởi vì đáp án chuẩn chứa khoảng 99 câu trả lời sai.

Sai lầm về chỉ số đo lường LongMemEval

LongMemEval được công bố là một benchmark hỏi-đáp đầu cuối (end-to-end). Một hệ thống phải truy xuất từ các phiên chat trước, tạo ra câu trả lời, và được GPT-4 chấm điểm. Mọi điểm số trên bảng xếp hạng LongMemEval đều là phần trăm câu hỏi có câu trả lời được đánh giá là đúng.

Tuy nhiên, công cụ chạy LongMemEval của MemPalace chỉ thực hiện bước truy xuất. Nó không bao giờ tạo câu trả lời và không bao giờ gọi judge. Nó chỉ kiểm tra xem ID phiên vàng (gold session ID) có nằm trong top 5 kết quả hay không. Đây là chỉ số recall_any@5. Không một trong các số liệu LongMemEval của dự án này — không phải 100%, không phải 98,4% hay 96,6% — là điểm số LongMemEval theo nghĩa chuẩn của bảng xếp hạng. Chúng chỉ là số liệu recall truy xuất trên cùng một tập dữ liệu, một nhiệm vụ dễ dàng hơn nhiều.

Hơn nữa, để đạt được con số 100% này, chế độ hybrid v4 của dự án đã được xây dựng bằng cách xem xét 3 câu trả lời sai còn lại trong tập dev và viết mã "vá" riêng cho từng câu: một cái boost cho cụm từ trích dẫn, một cái boost cho tên riêng, và các mẫu chuỗi cụ thể cho câu hỏi về họp lớp. Chính tài liệu của dự án cũng gọi đây là "dạy cho qua bài kiểm tra" (teaching to the test).

Những tính năng không tồn tại trong mã nguồn

Bài đăng ra mắt liệt kê "phát hiện mâu thuẫn bắt được tên sai, đại từ sai, độ tuổi sai trước khi bạn thấy chúng" là một tính năng. Tuy nhiên, tệp mempalace/knowledge_graph.py không chứa từ nào là "contradict" (mâu thuẫn). Logic duy nhất trong tệp này là kiểm tra trùng khớp chính xác các bộ ba (subject, predicate, object) — nó chặn các bộ ba trùng lặp được thêm vào hai lần nhưng không làm gì khác. Các sự thực mâu thuẫn về cùng một chủ đề có thể tích tụ vô hạn. Tính năng được quảng cáo hoàn toàn không tồn tại trong mã nguồn.

Nén AAAK thực chất gây mất dữ liệu

Bài đăng tuyên bố "nén AAAK vừa ngữ cảnh cuộc đời bạn vào 120 token — nén không mất dữ liệu (lossless) 30 lần mà mọi LLM đều đọc được". Tuy nhiên, mô-đun nén của dự án thực hiện việc cắt ngắn câu ở 55 ký tự và lọc theo tần suất từ khóa. Hàm decode() không thể tái tạo lại văn bản gốc.

Quan trọng hơn, cùng một tệp BENCHMARKS.md báo cáo điểm số results_raw_full500.jsonl là 96,6% R@5, nhưng results_aaak_full500.jsonl chỉ còn 84,2% R@5 — một sự sụt giảm chất lượng 12,4 điểm phần trăm. Nén không mất dữ liệu không thể gây ra sự sụt giảm chất lượng đo lường được. Dự án đã đo lường sự mất mát, ghi lại nó, nhưng vẫn công bố là "lossless".

Kết luận

Không một chế độ thất bại nào trong số này là độc quyền của MemPalace. Các cuộc chiến benchmark trong không gian bộ nhớ AI đang diễn ra rất khốc liệt. Điều bất thường ở đây là tài liệu nội bộ của dự án thừa nhận trung thực các vấn đề, trong khi truyền thông lại lột bỏ mọi yếu tố đó. Khoảng cách trung thực giữa kho lưu trữ và marketing mới thực sự là câu chuyện đáng nói.

Cái tên người nổi tiếng là lý do mọi người nghe đến dự án, nhưng kỹ thuật bên dưới vẫn chỉ là một kho lưu trữ Python với các lỗi cơ bản. Nếu bạn đang đánh giá bất kỳ hệ thống bộ nhớ AI nào, điều đúng đắn cần làm là tự đọc mã benchmark trước khi tin vào các con số tiêu đề. MemPalace là một ví dụ điển hình cho thấy tầm ảnh hưởng của marketing so với thực tế kỹ thuật trong làn sóng AI hiện nay.