Memento-Skills: Khung mới cho phép AI tự viết lại kỹ năng mà không cần đào tạo lại mô hình

Memento-Skills là một khung công tác mới giúp các tác nhân AI tự phát triển và viết lại kỹ năng của mình mà không cần đào tạo lại mô hình ngôn ngữ cơ bản. Hệ thống hoạt động như một bộ nhớ ngoài có thể tiến hóa, giúp cải thiện khả năng thực thi nhiệm vụ và giảm thiểu chi phí vận hành cho doanh nghiệp.

Một thách thức lớn khi triển khai các tác nhân tự chủ (autonomous agents) là xây dựng hệ thống có thể thích nghi với những thay đổi trong môi trường hoạt động mà không cần phải đào tạo lại (retrain) các mô hình ngôn ngữ lớn (LLM) cơ bản. Memento-Skills, một khung công tác mới được phát triển bởi các nhà nghiên cứu từ nhiều trường đại học, đã giải quyết nút thắt này bằng cách trao cho các tác nhân khả năng tự phát triển kỹ năng của chính mình.

"Nó bổ sung khả năng học tập liên tục (continual learning) vào các sản phẩm hiện có trên thị trường như OpenClaw và Claude Code," Jun Wang, đồng tác giả của bài nghiên cứu, chia sẻ với VentureBeat.

Memento-Skills hoạt động như một bộ nhớ ngoài có khả năng tiến hóa, cho phép hệ thống cải thiện dần các khả năng của mình mà không cần sửa đổi mô hình nền tảng. Khung công tác này cung cấp một tập hợp các kỹ năng có thể được cập nhật và mở rộng khi tác nhân nhận được phản hồi từ môi trường.

Đối với các nhóm doanh nghiệp đang vận hành các tác nhân trong môi trường thực tế (production), điều này có ý nghĩa rất quan trọng. Phương án thay thế — tinh chỉnh (fine-tuning) trọng số mô hình hoặc xây dựng kỹ năng thủ công — đều mang lại gánh nặng vận hành và yêu cầu dữ liệu lớn. Memento-Skills giúp vượt qua cả hai rào cản này.

Thách thức của việc xây dựng tác nhân tự tiến hóa

Các tác nhân tự tiến hóa là rất cần thiết vì chúng vượt qua được những hạn chế của các mô hình ngôn ngữ bị "đóng băng". Khi một mô hình được triển khai, các tham số của nó sẽ cố định, giới hạn kiến thức ở những gì được mã hóa trong quá trình đào tạo và những gì vừa vặn với cửa sổ ngữ cảnh (context window) ngay lập tức.

Trao cho mô hình một cấu trúc bộ nhớ ngoài cho phép nó cải thiện mà không cần qua quy trình đào tạo lại tốn kém và chậm chạp. Tuy nhiên, các phương pháp tiếp cận hiện tại đối với việc thích nghi của tác nhân chủ yếu dựa vào các kỹ năng được thiết kế thủ công để xử lý nhiệm vụ mới. Mặc dù một số phương pháp học kỹ năng tự động tồn tại, chúng chủ yếu tạo ra các hướng dẫn dạng văn bản, thực chất chỉ là tối ưu hóa lời nhắc (prompt). Các phương pháp khác chỉ đơn giản ghi lại các quỹ đạo nhiệm vụ đơn lẻ không thể chuyển đổi qua các nhiệm vụ khác nhau.

Hơn nữa, khi các tác nhân này cố gắng truy xuất kiến thức liên quan cho một nhiệm vụ mới, chúng thường dựa vào các bộ định tuyến dựa trên sự tương đồng ngữ nghĩa, chẳng hạn như các nhúng dày đặc (dense embeddings) tiêu chuẩn; sự trùng lặp ngữ nghĩa cao không đảm bảo tính hữu ích về hành vi. Một tác nhân dựa vào RAG tiêu chuẩn có thể truy xuất một kịch bản "đặt lại mật khẩu" để giải quyết truy vấn "xử lý hoàn tiền" chỉ đơn giản vì các tài liệu chia sẻ thuật ngữ doanh nghiệp.

"Hầu hết các hệ thống tạo sinh tăng cường truy xuất (RAG) dựa vào việc truy xuất dựa trên sự tương đồng. Tuy nhiên, khi kỹ năng được biểu diễn dưới dạng các tạo tác thực thi được như tài liệu markdown hoặc đoạn mã, sự tương đồng thôi chưa đủ để chọn ra kỹ năng hiệu quả nhất," Wang nói.

Cách Memento-Skills lưu trữ và cập nhật kỹ năng

Để giải quyết các hạn chế của hệ thống tác nhân hiện tại, các nhà nghiên cứu đã xây dựng Memento-Skills. Bài báo mô tả hệ thống này là "hệ thống tác nhân LLM đa năng, có thể học liên tục hoạt động như một tác nhân thiết kế tác nhân". Thay vì giữ một nhật ký thụ động các cuộc trò chuyện trong quá khứ, Memento-Skills tạo ra một tập hợp các kỹ năng đóng vai trò là bộ nhớ ngoài bền vững và liên tục phát triển.

Các kỹ năng này được lưu trữ dưới dạng tệp markdown có cấu trúc và đóng vai trò là cơ sở kiến thức đang phát triển của tác nhân. Mỗi tạo tác kỹ năng có thể tái sử dụng bao gồm ba yếu tố cốt lõi. Nó chứa các đặc tả khai báo phác thảo kỹ năng là gì và cách sử dụng. Nó bao gồm các hướng dẫn và lời nhắc chuyên dụng để dẫn dắt suy luận của mô hình ngôn ngữ. Và nó chứa mã thực thi và các tập lệnh trợ giúp mà tác nhân chạy để thực sự giải quyết nhiệm vụ.

Memento-Skills đạt được việc học liên tục thông qua cơ chế "Học tập Phản chiếu Đọc-Ghi" (Read-Write Reflective Learning), coi việc cập nhật bộ nhớ là quá trình lặp lại chính sách chủ động thay vì ghi log dữ liệu thụ động. Khi đối mặt với một nhiệm vụ mới, tác nhân truy vấn một bộ định tuyến kỹ năng chuyên dụng để truy xuất kỹ năng liên quan nhất về mặt hành vi — không chỉ là tương đồng ngữ nghĩa nhất — và thực thi nó.

Sau khi tác nhân thực thi kỹ năng và nhận được phản hồi, hệ thống sẽ phản ánh về kết quả để đóng vòng lặp học tập. Thay vì chỉ nối thêm một nhật ký về những gì đã xảy ra, hệ thống chủ động đột biến bộ nhớ của mình. Nếu thực thi thất bại, một bộ điều phối sẽ đánh giá dấu vết và viết lại các tạo tác kỹ năng. Điều này có nghĩa là nó trực tiếp cập nhật mã hoặc lời nhắc để vá chế độ thất bại cụ thể. Nếu cần, nó tạo ra một kỹ năng hoàn toàn mới.

Memento-Skills cũng cập nhật bộ định tuyến kỹ năng thông qua quy trình học tăng cường (reinforcement learning) ngoại tuyến một bước, học hỏi từ phản hồi thực thi thay vì chỉ sự trùng lặp văn bản.

"Giá trị thực sự của một kỹ năng nằm ở cách nó đóng góp vào quy trình làm việc tổng thể của tác nhân và thực thi hạ nguồn," Wang nói. "Do đó, học tăng cường cung cấp một khuôn phù hợp hơn, vì nó cho phép tác nhân đánh giá và chọn kỹ năng dựa trên tiện ích dài hạn."

Để ngăn chặn sự suy giảm trong môi trường sản xuất, các đột biến kỹ năng tự động được bảo vệ bởi một cổng kiểm tra đơn vị (unit-test) tự động. Hệ thống tạo ra một trường hợp kiểm tra tổng hợp, thực thi nó thông qua kỹ năng đã cập nhật và kiểm tra kết quả trước khi lưu các thay đổi vào thư viện toàn cầu.

Bằng cách liên tục viết lại và tinh chỉnh các công cụ thực thi của chính mình, Memento-Skills cho phép một mô hình ngôn ngữ bị đóng băng xây dựng "bộ nhớ cơ bắp" mạnh mẽ và mở rộng dần các khả năng của mình từ đầu đến cuối.

Kiểm chứng hiệu quả của tác nhân tự tiến hóa

Các nhà nghiên cứu đã đánh giá Memento-Skills trên hai tiêu chuẩn đánh giá khắt khe. Thứ nhất là General AI Assistants (GAIA), yêu cầu suy luận đa bước phức tạp, xử lý đa phương thức, duyệt web và sử dụng công cụ. Thứ hai là Humanity's Last Exam (HLE), một tiêu chuẩn cấp chuyên gia bao gồm tám chủ đề học thuật đa dạng như toán học và sinh học. Toàn bộ hệ thống được cung cấp sức mạnh bởi Gemini-3.1-Flash đóng vai trò là mô hình ngôn ngữ cơ bản bị đóng băng.

Hệ thống được so sánh với đường cơ sở Read-Write truy xuất kỹ năng và thu thập phản hồi nhưng không có tính năng tự tiến hóa. Các nhà nghiên cứu cũng kiểm tra bộ định tuyến kỹ năng tùy chỉnh của họ so với các đường cơ sở truy xuất ngữ nghĩa tiêu chuẩn, bao gồm BM25 và Qwen3 embeddings.

Kết quả chứng minh rằng bộ nhớ tự tiến hóa chủ động vượt trội hơn hẳn thư viện kỹ năng tĩnh. Trên tiêu chuẩn GAIA đa dạng cao, Memento-Skills cải thiện độ chính xác trên tập kiểm tra thêm 13,7 điểm phần trăm so với đường cơ bản tĩnh, đạt 66,0% so với 52,3%. Trên tiêu chuẩn HLE, nơi cấu trúc miền cho phép tái sử dụng kỹ năng quy mô lớn giữa các nhiệm vụ, hệ thống đã tăng gấp đôi hiệu suất của đường cơ bản, nhảy vọt từ 17,9% lên 38,7%.

Hơn nữa, bộ định tuyến kỹ năng chuyên dụng của Memento-Skills tránh được "cái bẫy truy xuất" cổ điển nơi một kỹ năng không liên quan được chọn chỉ vì sự tương đồng ngữ nghĩa. Các thí nghiệm cho thấy Memento-Skills thúc đẩy tỷ lệ thành công nhiệm vụ đầu cuối lên 80%, so với chỉ 50% đối với truy xuất BM25 tiêu chuẩn.

Các nhà nghiên cứu quan sát thấy rằng Memento-Skills đạt được hiệu suất này thông qua sự tăng trưởng kỹ năng có cấu trúc và rất tự nhiên. Cả hai thí nghiệm tiêu chuẩn đều bắt đầu chỉ với năm kỹ năng hạt nhân (seed skills), chẳng hạn như tìm kiếm web cơ bản và hoạt động đầu cuối. Trên tiêu chuẩn GAIA, tác nhân đã tự chủ mở rộng nhóm hạt nhân này thành một thư viện nhỏ gọn gồm 41 kỹ năng để xử lý các nhiệm vụ đa dạng. Trên tiêu chuẩn HLE cấp chuyên gia, hệ thống đã mở rộng quy mô động thư viện của mình lên 235 kỹ năng riêng biệt.

Tìm điểm cân bằng cho doanh nghiệp

Các nhà nghiên cứu đã công bố mã nguồn cho Memento-Skills trên GitHub và nó có sẵn để sử dụng ngay.

Đối với các kiến trúc sư doanh nghiệp, hiệu quả của hệ thống này phụ thuộc vào sự phù hợp về lĩnh vực. Thay vì chỉ nhìn vào điểm số tiêu chuẩn, sự đánh đổi kinh doanh cốt lõi nằm ở việc tác nhân của bạn đang xử lý các nhiệm vụ cô lập hay quy trình làm việc có cấu trúc.

"Việc chuyển giao kỹ năng phụ thuộc vào mức độ tương tự giữa các nhiệm vụ," Wang nói. "Thứ nhất, khi các nhiệm vụ cô lập hoặc liên quan yếu, tác nhân không thể dựa vào kinh nghiệm trước đó và phải học thông qua tương tác." Trong những môi trường rời rạc như vậy, việc chuyển giao giữa các nhiệm vụ bị hạn chế. "Thứ hai, khi các nhiệm vụ chia sẻ cấu trúc đáng kể, các kỹ năng đã thu được trước đó có thể được tái sử dụng trực tiếp. Ở đây, việc học trở nên hiệu quả hơn vì kiến thức chuyển giao giữa các nhiệm vụ, cho phép tác nhân hoạt động tốt trên các vấn đề mới với ít hoặc không cần thêm tương tác."

Cho rằng hệ thống yêu cầu các mẫu nhiệm vụ lặp lại để củng cố kiến thức, các lãnh đạo doanh nghiệp cần biết chính xác nơi triển khai điều này hôm nay và nơi nên chờ đợi.

"Quy trình làm việc (Workflows) có lẽ là bối cảnh phù hợp nhất cho phương pháp này, vì nó cung cấp môi trường có cấu trúc trong đó các kỹ năng có thể được kết hợp, đánh giá và cải thiện," Wang nói.

Tuy nhiên, ông cảnh báo về việc triển khai quá mức ở các lĩnh vực chưa phù hợp với khung công tác này. "Các tác nhân vật lý vẫn largely chưa được khám phá trong bối cảnh này và yêu cầu điều tra thêm. Ngoài ra, các nhiệm vụ với chân trời dài hơn có thể yêu cầu các phương pháp tiếp cận nâng cao hơn, chẳng hạn như hệ thống LLM đa tác nhân, để cho phép phối hợp, lập kế hoạch và thực thi bền bỉ qua các chuỗi quyết định mở rộng."

Khi ngành công nghiệp chuyển hướng sang các tác nhân có thể tự động viết lại mã sản xuất của chính mình, quản trị và an ninh vẫn là tối quan trọng. Mặc dù Memento-Skills sử dụng các rào chắn an toàn nền tảng như cổng kiểm tra đơn vị tự động, một khuôn khổ rộng hơn có thể sẽ cần thiết để áp dụng doanh nghiệp.

"Để cho phép tự cải thiện đáng tin cậy, chúng ta cần một hệ thống đánh giá hoặc thẩm phán được thiết kế tốt có thể đánh giá hiệu suất và cung cấp hướng dẫn nhất quán," Wang nói. "Thay vì cho phép tự sửa đổi không giới hạn, quá trình này nên được cấu trúc như một hình thức tự phát triển có hướng dẫn, nơi phản hồi dẫn dắt tác nhân hướng tới các thiết kế tốt hơn."