Magenta RealTime 2: Mô hình AI âm nhạc thời gian thực mã nguồn mở chạy ngay trên MacBook
Đội ngũ Magenta của Google đã công bố Magenta RealTime 2 (MRT2), một mô hình AI âm nhạc tiên tiến cho phép tạo nhạc và điều khiển nhạc cụ theo thời gian thực với độ trễ cực thấp. Điểm nổi bật là MRT2 có thể chạy hoàn toàn cục bộ trên các máy tính sử dụng chip Apple Silicon mà không cần kết nối internet.

Đội ngũ Magenta của Google vừa giới thiệu Magenta RealTime 2 (MRT2), một bước tiến lớn trong lĩnh vực AI âm nhạc. Đây là một mô hình mã nguồn mở và bộ引擎 suy luận (inference engine) hiệu quả cao, cho phép người dùng xây dựng và chơi các nhạc cụ AI ngay trên laptop của mình.
Giao diện Magenta RealTime 2
Khác với các mô hình tạo nhạc lớn khác thường hoạt động ngoại tuyến để chuyển văn bản thành bài hát hoàn chỉnh, MRT2 là một mô hình trực tiếp và tương tác. Người dùng có thể điều khiển nó thông qua MIDI, âm thanh và văn bản. MRT2 thực hiện suy luận trên thiết bị (on-device inference) với độ trễ thấp để phản hồi tức thì các đầu vào của bạn.
Cải thiện vượt bậc về hiệu suất
So với phiên bản đầu tiên, MRT2 mang lại những cải thiện đáng kể về hiệu năng và khả năng tiếp cận:
- Độ trễ thấp hơn: Giảm từ khoảng 3 giây xuống còn khoảng 200ms.
- Yêu cầu phần cứng: Thay vì cần GPU hoặc TPU mạnh mẽ, MRT2 có thể chạy mượt mà trên MacBook sử dụng chip Apple Silicon.
- Khung hình (Frame size): Giảm từ 2 giây xuống còn 40ms.
So sánh hiệu suất
Để đạt được điều này, nhóm Magenta đã xây dựng một bộ引擎 suy luận bằng C++ được hỗ trợ bởi framework MLX của Apple. Điều này cho phép MRT2 chạy tự nhiên trên Apple Silicon, tận dụng sức mạnh của GPU trên các dòng máy Mac M-series. Cụ thể, phiên bản cơ sở (2.4B tham số) có thể chạy thời gian thực trên MacBook M3 Pro hoặc M2 Max trở lên, trong khi phiên bản nhỏ (230M tham số) hoạt động tốt trên mọi máy Mac Apple Silicon, bao gồm cả MacBook Air.
Điều khiển linh hoạt và sáng tạo
MRT2 cung cấp khả năng kiểm soát chi tiết cho các nhạc sĩ và nhà phát triển. Mô hình này hỗ trợ nhiều phương thức điều khiển bao gồm văn bản, âm thanh và đặc biệt là MIDI. Điều này cho phép người dùng tạo ra các bản đệm (accompaniment) trực tiếp, sao chép âm thanh và pha trộn các phong cách nhạc.
Quy trình hoạt động
Về mặt kỹ thuật, MRT2 là một mô hình ngôn ngữ codec (codec language model) hoạt động trên các chuỗi token âm thanh từ codec SpectroStream. MRT2 đạt được độ trễ thấp hơn bằng cách thực hiện tự hồi quy cấp khung hình (frame-level autoregression) với điều kiện căn chỉnh khung hình. Để cho phép kiểm soát nhạc biểu cảm, MRT2 được thiết kế để mô hình hóa âm thanh liên tục theo các đầu vào MIDI, cùng với các gợi ý phong cách có thể là âm thanh hoặc văn bản.
Tính khả dụng và Tương lai
Hiện tại, người dùng có thể tải xuống các ứng dụng cho MacBook (yêu cầu Apple Silicon) dưới dạng ứng dụng độc lập hoặc plugin. Đội ngũ phát triển cũng công bố mã nguồn mở trên GitHub cùng với thư viện Python magenta-rt để suy luận qua JAX/MLX.
Trong tương lai, Magenta hứa hẹn sẽ mang đến nhiều tính năng hơn như tinh chỉnh mô hình (finetuning) để người dùng có thể tùy chỉnh trên dữ liệu của riêng mình, cũng như các công cụ biểu diễn mẫu được tạo ra trong sự hợp tác với các nghệ sĩ.
Với Magenta RealTime 2, các nhạc cụ AI đang bắt đầu đạt được tính kiểm soát và sự tức thì mà chúng ta mong đợi từ các công cụ tạo nhạc chuyên nghiệp, biến AI thành một trợ thủ đắc lực thay vì một sự thay thế cho nhạc sĩ.
