Mô hình Ngôn ngữ Khuyếch tán Nội soi (I-DLM): Bước đột phá cân bằng tốc độ và chất lượng
I-DLM giải quyết hạn chế về chất lượng của các mô hình ngôn ngữ khuyếch tán trước đây nhờ cơ chế "nội soi" giúp xác minh dữ liệu đầu ra. Với hiệu suất vượt trội và khả năng tạo sinh song song, I-DLM-8B đã đánh bại các đối thủ lớn hơn gấp đôi kích thước trên nhiều tiêu chuẩn đánh giá.

Các mô hình ngôn ngữ khuyếch tán (Diffusion Language Models - DLMs) từ lâu đã mang đến một lời hứa hẹn hấp dẫn: khả năng tạo sinh token song song có thể phá vỡ nút thắt tuần tự của quá trình giải mã tự hồi quy (autoregressive - AR). Tuy nhiên, trên thực tế, các DLM thường xuyên tụt hậu so với các mô hình AR về mặt chất lượng.
Một nhóm nghiên cứu đã lập luận rằng khoảng cách này xuất phát từ sự thất bại cơ bản về "tính nhất quán nội soi" (introspective consistency): các mô hình AR luôn đồng thuận với những gì chúng tạo ra, trong khi DLM thường thì không. Để khắc phục vấn đề này, họ giới thiệu Mô hình Ngôn ngữ Khuyếch tán Nội soi (Introspective Diffusion Language Model - I-DLM).
So sánh hiệu suất I-DLM
I-DLM sử dụng kỹ thuật giải mã bước nhảy nội soi (Introspective Strided Decoding - ISD) để xác minh các token đã tạo trước đó trong khi vẫn tiến hành tạo ra token mới trong cùng một lần truyền tiến (forward pass).
Hiệu suất ấn tượng
Về mặt thực nghiệm, I-DLM-8B là mô hình DLM đầu tiên đạt được chất lượng tương đương với đối thủ AR cùng quy mô. Nó vượt trội hơn LLaDA-2.1-mini (16B) với mức cải thiện +26 điểm trên AIME-24 và +15 điểm trên LiveCodeBench-v6, dù chỉ sở hữu một nửa số tham số.
Độ trễ và tính toán
Không chỉ cải thiện chất lượng, I-DLM còn mang lại tốc độ xử lý (throughput) từ 2.9 đến 4.1 lần cao hơn ở mức độ đồng thời cao. Khi kết hợp với gated LoRA, kỹ thuật ISD cho phép tăng tốc hoàn toàn không mất mát dữ liệu (lossless acceleration).
Cơ chế hoạt động và Tích hợp
I-DLM xác định ba nút thắt cơ bản trong các DLM hiện tại và đưa ra giải pháp tối ưu hóa:
- Chuyển đổi các mô hình AR được huấn luyện trước thông qua chú ý nhân quả (causal attention), dịch chuyển logit và mục tiêu all-masked.
- Tạo N token cho mỗi lần truyền tiến trong khi xác minh các token trước đó thông qua tiêu chí chấp nhận p/q.
- Sử dụng chú ý nhân quả nghiêm ngặt cho phép tích hợp trực tiếp vào SGLang mà không cần bất kỳ cơ sở hạ tầng tùy chỉnh nào.
Hiệu quả của batching
Đây là bước tiến quan trọng đầu tiên giúp một mô hình DLM bắt kịp chất lượng của mô hình AR cùng quy mô, đồng thời vượt qua tất cả các DLM tiền nhiệm trên 15 tiêu chuẩn đánh giá khác nhau. Sự phát triển này mở ra hướng đi mới cho việc xây dựng các hệ thống AI vừa nhanh chóng, vừa chính xác.



