Parlor: Trải nghiệm AI đa phương thức thời gian thực ngay trên chip Apple M3 Pro

Dự án Parlor giới thiệu khả năng chạy trợ lý AI đa phương thức (nghe, nhìn, nói) hoàn toàn cục bộ trên máy tính cá nhân. Với sự hỗ trợ của mô hình Gemma 4 E2B và công nghệ TTS Kokoro, ứng dụng cho phép người dùng trò chuyện tự nhiên với AI trên chip M3 Pro mà không tốn chi phí máy chủ.

Parlor là một dự án thử nghiệm mới lạ, cho phép chạy trí tuệ nhân tạo đa phương thức thời gian thực hoàn toàn ngay trên thiết bị (on-device). Thay vì gửi dữ liệu lên đám mây, Parlor hoạt động cục bộ, cho phép người dùng trò chuyện bằng giọng nói và hình ảnh với AI ngay trên máy tính của mình.

Dự án này tận dụng sức mạnh của mô hình Gemma 4 E2B để xử lý ngôn ngữ và thị giác, kết hợp với Kokoro để chuyển đổi văn bản thành giọng nói (text-to-speech). Điều này tạo ra một quy trình hội thoại tự nhiên: bạn nói, máy nhìn (qua camera), và AI sẽ phản hồi lại bằng giọng.

Tại sao lại là Parlor?

Tác giả của dự án chia sẻ rằng động lực ban đầu là để duy trì một dịch vụ học tiếng Anh miễn phí. Việc tự lưu trữ (self-hosting) AI trên máy chủ đắt đỏ, và giải pháp tối ưu nhất là chuyển mọi xử lý sang thiết bị của người dùng để loại bỏ chi phí máy chủ.

Chỉ sáu tháng trước, để chạy các mô hình giọng nói thời gian thực, người ta cần một chiếc card đồ họa mạnh như RTX 5090. Tuy nhiên, với việc Google ra mắt các mô hình nhỏ gọn nhưng vượt trội, nay chúng ta đã có thể chạy chúng với hiệu suất thời gian thực ngay trên chip Apple M3 Pro, thậm chí có cả khả năng xử lý thị giác.

Đây là một bước ngoặt lớn đối với người học ngoại ngữ. Tác giả hình dung một tương lai không xa khi mọi người có thể chạy ứng dụng này cục bộ trên điện thoại, chỉ cần hướng camera vào các vật thể và trò chuyện về chúng. Mô hình cũng hỗ trợ đa ngôn ngữ, cho phép người dùng quay lại ngôn ngữ mẹ đẻ nếu cần.

Cơ chế hoạt động

Parlor sử dụng kiến trúc khách - chủ (client-server) nhưng được tối ưu hóa để chạy cục bộ:

Trình duyệt: Thu thập âm thanh từ micro và hình ảnh từ camera.
Giao thức: Sử dụng WebSocket để truyền tải dữ liệu âm thanh (PCM) và khung hình (JPEG) đến máy chủ.
Máy chủ (FastAPI):
- Sử dụng Gemma 4 E2B thông qua LiteRT-LM trên GPU để hiểu giọng nói và hình ảnh.
- Sử dụng Kokoro TTS (chạy trên MLX cho Mac hoặc ONNX cho Linux) để tạo giọng nói phản hồi.
Trình duyệt: Nhận luồng âm thanh để phát lại và hiển thị bản thảo.

Hệ thống tích hợp tính năng phát hiện hoạt động giọng nói (Voice Activity Detection - VAD) ngay trên trình duyệt, cho phép trải nghiệm rảnh tay (hands-free) mà không cần bấm nút. Ngoài ra, tính năng "Barge-in" cho phép người dùng ngắt lời AI bất cứ lúc nào bằng cách bắt đầu nói.

Hiệu suất và Yêu cầu hệ thống

Trên chip Apple M3 Pro, Parlor đạt được hiệu suất ấn tượng trong giai đoạn thử nghiệm:

Thời gian hiểu giọng nói và hình ảnh: ~1,8 - 2,2 giây.
Tạo phản hồi (~25 tokens): ~0,3 giây.
Chuyển văn bản thành giọng nói (1-3 câu): ~0,3 - 0,7 giây.
Tổng thời gian đầu cuối: ~2,5 - 3,0 giây.
Tốc độ giải mã: ~83 tokens/giây trên GPU.

Để chạy thử nghiệm này, người dùng cần:

Python 3.12 trở lên.
macOS với chip Apple Silicon hoặc Linux với GPU được hỗ trợ.
Khoảng 3 GB RAM trống cho mô hình.

Parlor hiện đang ở giai đoạn xem trước nghiên cứu (research preview), có thể còn một số lỗi chưa hoàn thiện, nhưng nó mở ra triển vọng lớn cho việc ứng dụng AI cục bộ trong giáo dục và giao tiếp hàng ngày.

Parlor: Trải nghiệm AI đa phương thức thời gian thực ngay trên chip Apple M3 Pro

Tại sao lại là Parlor?

Cơ chế hoạt động

Hiệu suất và Yêu cầu hệ thống

Bài viết liên quan