Stability AI ra mắt Stability Audio 3.0: Tạo bản nhạc dài 6 phút, chạy ngay trên thiết bị

Stability AI vừa công bố dòng mô hình âm thanh mới Stability Audio 3.0, trong đó phiên bản cao cấp nhất có thể tạo ra các bản nhạc chuyên nghiệp dài hơn sáu phút. Các mô hình nhỏ hơn được thiết kế để chạy trực tiếp trên thiết bị, cho phép tạo âm thanh và đoạn nhạc ngắn. Công ty cũng mở quyền truy cập cho một số phiên bản với trọng số mở và khẳng định dữ liệu huấn luyện đã được cấp phép đầy đủ.

Stability AI, công ty nổi tiếng với mô hình tạo ảnh Stable Diffusion, đã chính thức ra mắt dòng sản phẩm mới mang tên Stability Audio 3.0. Theo công bố, phiên bản cao cấp nhất của dòng mô hình này có khả năng tạo ra các bản nhạc chất lượng chuyên nghiệp với độ dài hơn sáu phút.

Dòng sản phẩm mới bao gồm bốn mô hình: small SFX (459 triệu tham số), small (459 triệu tham số), medium (1,4 tỷ tham số) và large (2,7 tỷ tham số). Cặp mô hình nhỏ (small) được tối ưu hóa để chạy trực tiếp trên thiết bị (on-device), cho phép người dùng tạo âm thanh và nhạc nền dài tối đa hai phút mà không cần phụ thuộc vào máy chủ đám mây.

Trong khi đó, cả hai mô hình medium và large đều có khả năng sáng tác các bản nhạc hoàn chỉnh dài 6 phút 20 giây, duy trì được cấu trúc nhạc và giai điệu xuyên suốt. Đây là bước tiến lớn, gấp đôi độ dài so với khả năng của Stable Audio 2.0 được ra mắt vào năm 2024.

Biểu đồ so sánh các mô hình Stability Audio 3.0

Stability AI đang cung cấp các mô hình small SFX, small và medium với trọng số mở (open weights), cho phép bất kỳ ai cũng có thể sử dụng và chỉnh sửa. Vào năm 2024, công ty từng phát hành Stable Audio Open với khả năng tạo nhạc dài 47 giây, do đó dòng sản phẩm mới này được xem là một bước nhảy vọt so với các phiên bản mở trước đó.

Tuy nhiên, mô hình large chỉ có sẵn thông qua API và các dịch vụ tự lưu trữ có tính phí. Ngoài ra, các công ty có doanh thu trên 1 triệu USD sẽ cần phải xin giấy phép doanh nghiệp để sử dụng.

Hiện nay, nhiều công ty công nghệ lớn như Google và ElevenLabs cũng đang tung ra các mô hình và công cụ tạo nhạc. Tuy nhiên, như những cuộc chiến pháp lý đang diễn ra giữa Suno và Udio đã chứng minh, vấn đề cấp phép dữ liệu và hợp tác với các hãng thu âm có thể trở thành yếu tố then chốt cho sự tồn tại lâu dài của các dịch vụ này.

Vào năm ngoái, Stability AI đã ký kết thỏa thuận với Warner Music Group và Universal Music Group để phát triển các mô hình và công cụ sáng tác nhạc. Công ty khẳng định rằng bộ mô hình âm thanh mới nhất của họ được xây dựng dựa trên dữ liệu đã được cấp phép đầy đủ.

Startup AI này đang phát triển một bộ sản phẩm mới dành cho các nhạc sĩ chuyên nghiệp, nhưng chưa tiết lộ chi tiết về các tính năng. Ethan Kaplan, cựu giám đốc kỹ thuật số của Universal Audio và Fender, sẽ gia nhập công ty để dẫn dắt mảng cung cấp nhạc chuyên nghiệp của Stability.

Một số công ty AI đang nỗ lực tăng cường uy tín của mình bằng cách tuyển dụng các giám đốc điều hành trong ngành âm nhạc. Đầu năm nay, Suno đã thuê cựu CEO của Merlin, Jeremy Sirota, làm giám đốc thương mại. ElevenLabs cũng đã tuyển dụng Derek Cournoyer từ nhà xuất bản âm nhạc độc lập Kobalt làm trưởng bộ phận chiến lược cho mảng kinh doanh âm nhạc của họ.

Stability AI ra mắt Stability Audio 3.0: Tạo bản nhạc dài 6 phút, chạy ngay trên thiết bị

Bài viết liên quan