Tự chưng cất (Self-Distillation) mở đường cho khả năng học tập liên tục của AI
Một phương pháp mới gọi là Self-Distillation Fine-Tuning (SDFT) giúp các mô hình AI học kỹ năng mới từ dữ liệu mẫu mà không làm mất đi kiến thức cũ. Kỹ thuật này vượt trội so với tinh chỉnh có giám sát truyền thống, cho phép mô hình tích lũy nhiều kỹ năng theo thời gian mà không giảm hiệu suất.

Tự chưng cất (Self-Distillation) mở đường cho khả năng học tập liên tục của AI
Đối với các mô hình nền tảng (foundation models) lớn hiện nay, việc học tập liên tục (continual learning) vẫn là một thách thức lớn. Vấn đề cốt lõi là làm thế nào để mô hình có thể học thêm kỹ năng mới mà không bị "quên" những kiến thức đã biết trước đó - một hiện tượng thường được gọi là sự quên lãng thảm khốc (catastrophic forgetting).
Mặc dù học tăng cường trên chính sách (on-policy reinforcement learning) có thể giúp giảm thiểu việc quên kiến thức, nhưng nó yêu cầu các hàm phần thưởng (reward functions) rõ ràng - thứ thường khó có được trong các ứng dụng thực tế. Phương pháp thay thế phổ biến hiện nay là học từ các mẫu trình diễn của chuyên gia (expert demonstrations), chủ yếu thông qua tinh chỉnh có giám sát (Supervised Fine-Tuning - SFT), vốn vốn có tính chất ngoài chính sách (off-policy).
Giới thiệu Self-Distillation Fine-Tuning (SDFT)
Để giải quyết hạn chế này, các nhà nghiên cứu đã giới thiệu một phương pháp mới gọi là Self-Distillation Fine-Tuning (SDFT). Đây là một giải pháp đơn giản nhưng hiệu quả, cho phép mô hình thực hiện việc học trực tiếp từ các mẫu trình diễn theo cách "trên chính sách" (on-policy).
Điểm mấu chốt của SDFT nằm ở việc tận dụng khả năng học ngữ cảnh (in-context learning). Phương pháp này sử dụng chính mô hình đã được điều kiện hóa bởi các mẫu trình diễn đóng vai trò là "giáo viên" cho chính nó. Quá trình này tạo ra các tín hiệu huấn luyện on-policy, giúp bảo toàn các khả năng trước đó đồng thời tiếp thu các kỹ năng mới một cách mượt mà.
Kết quả vượt trội so với SFT truyền thống
Trên nhiều nhiệm vụ liên quan đến học kỹ năng và thu nạp kiến thức, SDFT đã chứng minh hiệu suất vượt trội so với phương pháp SFT truyền thống.
- Độ chính xác cao hơn: SDFT đạt được kết quả tốt hơn trên các nhiệm vụ mới so với SFT.
- Giảm thiểu sự quên lãng: Phương pháp này giảm đáng kể nguy cơ quên kiến thức cũ (catastrophic forgetting).
- Tích lũy kỹ năng: Trong các thí nghiệm học tập tuần tự, SDFT cho phép một mô hình duy nhất tích lũy nhiều kỹ năng khác nhau theo thời gian mà không gây ra sự suy giảm hiệu suất.
Việc xác lập quy trình chưng cất on-policy này mở ra một con đường thực tiễn mới cho việc học tập liên tục từ các mẫu trình diễn, đặc biệt hữu ích cho việc phát triển các hệ thống AI thông minh hơn và linh hoạt hơn trong tương lai.
Bài viết liên quan

Công nghệ
Cerebras, đối tác thân thiết của OpenAI, sẵn sàng cho đợt IPO kỷ lục định giá tới 26,6 tỷ USD
04 tháng 5, 2026

AI & ML
Nguy cơ bảo mật từ "Vibe-Coding": Hàng nghìn ứng dụng AI để lộ dữ liệu nhạy cảm trên mạng
07 tháng 5, 2026

Phần mềm
Google tung ra Antigravity 2.0: Ứng dụng lập trình thế hệ mới với công cụ CLI và gói đăng ký AI Ultra
19 tháng 5, 2026
