Tự chưng cất (Self-Distillation) mở đường cho khả năng học tập liên tục của AI

Một phương pháp mới gọi là Self-Distillation Fine-Tuning (SDFT) giúp các mô hình AI học kỹ năng mới từ dữ liệu mẫu mà không làm mất đi kiến thức cũ. Kỹ thuật này vượt trội so với tinh chỉnh có giám sát truyền thống, cho phép mô hình tích lũy nhiều kỹ năng theo thời gian mà không giảm hiệu suất.

Đối với các mô hình nền tảng (foundation models) lớn hiện nay, việc học tập liên tục (continual learning) vẫn là một thách thức lớn. Vấn đề cốt lõi là làm thế nào để mô hình có thể học thêm kỹ năng mới mà không bị "quên" những kiến thức đã biết trước đó - một hiện tượng thường được gọi là sự quên lãng thảm khốc (catastrophic forgetting).

Mặc dù học tăng cường trên chính sách (on-policy reinforcement learning) có thể giúp giảm thiểu việc quên kiến thức, nhưng nó yêu cầu các hàm phần thưởng (reward functions) rõ ràng - thứ thường khó có được trong các ứng dụng thực tế. Phương pháp thay thế phổ biến hiện nay là học từ các mẫu trình diễn của chuyên gia (expert demonstrations), chủ yếu thông qua tinh chỉnh có giám sát (Supervised Fine-Tuning - SFT), vốn vốn có tính chất ngoài chính sách (off-policy).

Giới thiệu Self-Distillation Fine-Tuning (SDFT)

Để giải quyết hạn chế này, các nhà nghiên cứu đã giới thiệu một phương pháp mới gọi là Self-Distillation Fine-Tuning (SDFT). Đây là một giải pháp đơn giản nhưng hiệu quả, cho phép mô hình thực hiện việc học trực tiếp từ các mẫu trình diễn theo cách "trên chính sách" (on-policy).

Điểm mấu chốt của SDFT nằm ở việc tận dụng khả năng học ngữ cảnh (in-context learning). Phương pháp này sử dụng chính mô hình đã được điều kiện hóa bởi các mẫu trình diễn đóng vai trò là "giáo viên" cho chính nó. Quá trình này tạo ra các tín hiệu huấn luyện on-policy, giúp bảo toàn các khả năng trước đó đồng thời tiếp thu các kỹ năng mới một cách mượt mà.

Kết quả vượt trội so với SFT truyền thống

Trên nhiều nhiệm vụ liên quan đến học kỹ năng và thu nạp kiến thức, SDFT đã chứng minh hiệu suất vượt trội so với phương pháp SFT truyền thống.

Độ chính xác cao hơn: SDFT đạt được kết quả tốt hơn trên các nhiệm vụ mới so với SFT.
Giảm thiểu sự quên lãng: Phương pháp này giảm đáng kể nguy cơ quên kiến thức cũ (catastrophic forgetting).
Tích lũy kỹ năng: Trong các thí nghiệm học tập tuần tự, SDFT cho phép một mô hình duy nhất tích lũy nhiều kỹ năng khác nhau theo thời gian mà không gây ra sự suy giảm hiệu suất.

Việc xác lập quy trình chưng cất on-policy này mở ra một con đường thực tiễn mới cho việc học tập liên tục từ các mẫu trình diễn, đặc biệt hữu ích cho việc phát triển các hệ thống AI thông minh hơn và linh hoạt hơn trong tương lai.

Tự chưng cất (Self-Distillation) mở đường cho khả năng học tập liên tục của AI

Giới thiệu Self-Distillation Fine-Tuning (SDFT)

Kết quả vượt trội so với SFT truyền thống

Bài viết liên quan