OpenAI công bố kiến trúc WebRTC mới cho Voice AI độ trễ thấp quy mô lớn

OpenAI mới đây đã chia sẻ chi tiết về cách họ điều chỉnh WebRTC để triển khai Voice AI với độ trễ thấp ở quy mô toàn cầu. Thay vì sử dụng mô hình xử lý media truyền thống, họ đã phát triển kiến trúc relay-transceiver tối ưu cho Kubernetes và cloud load balancers. Giải pháp này giúp tách biệt trạng thái phiên WebRTC và giảm thiểu sự phơi bày của cổng UDP công khai.

OpenAI mới đây đã công bố cách họ điều chỉnh giao thức WebRTC để hỗ trợ Trí tuệ nhân tạo (AI) giọng nói với độ trễ thấp ở quy mô toàn cầu. Kiến trúc mới này thay thế mô hình chấm dứt media truyền thống bằng thiết kế relay-transceiver (bộ chuyển tiếp-bộ thu phát), được tối ưu hóa tốt hơn cho các môi trường Kubernetes và bộ cân bằng tải đám mây (cloud load balancers).

Trong bài viết mới của mình, Yi Zhang và William McDonald, các kỹ sư kỹ thuật của OpenAI, giải thích rằng việc mở rộng phạm vi toàn cầu, thiết lập kết nối nhanh và duy trì thời gian khứ hồi của media thấp và ổn định là những ràng buộc chính dẫn đến sự thay đổi này. Đội ngũ đã đánh giá nhiều cách tiếp cận khác nhau để hiển thị các phiên media, mỗi cách đều có những sự đánh đổi về mặt vận hành khác nhau.

Cách tiếp cận SFU bao gồm AI như một người tham gia WebRTC

Thách thức với mô hình truyền thống

Phương án đầu tiên được cân nhắc là việc phơi bày UDP trực tiếp cho từng phiên (per-session UDP exposure), phương pháp này giữ nguyên mô hình WebRTC truyền thống. Tuy nhiên, nó đẩy độ phức tạp vận hành vào tầng hạ tầng, đặc biệt là trong môi trường Kubernetes, nơi mà việc quản lý an toàn các dải cổng công cộng lớn là rất khó khăn. Việc cấp phát các cổng duy nhất cho mỗi máy chủ có thể đơn giản hóa một số quyết định định tuyến, nhưng vẫn khiến các nhà vận hành phải đối mặt với việc quy hoạch cổng, mức sử dụng không đồng đều và các mẫu triển khai dễ bị lỗi.

Các bộ chuyển tiếp kiểu TURN cũng là một lựa chọn khả thi, nhưng chúng giới thiệu một trung gian nặng nề hơn vào đường dẫn media và giải quyết một vấn đề rộng lớn hơn những gì OpenAI cần cho các phiên mô hình-người dùng chủ yếu là 1:1.

Giải pháp Relay-Transceiver

Thay vào đó, OpenAI đã chọn chia trách nhiệm giữa hai lớp. Một bộ chuyển tiếp (relay) nhẹ nhàng chấp nhận các gói tin đến và chuyển tiếp chúng, trong khi một bộ thu phát (transceiver) riêng biệt sở hữu toàn bộ cơ chế WebRTC có trạng thái, bao gồm đàm phán ICE, bắt tay DTLS, mã hóa SRTP và toàn bộ vòng đời của phiên.

Cách tiếp cận Transceiver chấm dứt WebRTC tại biên và chuyển đổi sang giao thức backend

Sự tách biệt này có nghĩa là relay có thể giữ đơn giản, nhanh chóng và phần lớn không có trạng thái (stateless), trong khi transceiver là thành phần duy nhất cần hiểu đầy đủ về giao thức. Điều đó giúp giữ độ phức tạp tập trung ở một nơi thay vì nhân bản nó trên các dịch vụ backend hoặc đẩy nó vào hành vi của máy khách.

"Nơi tốt nhất để thêm độ phức tạp là trong một lớp định tuyến mỏng, không phải trong mọi dịch vụ backend và không phải trong hành vi máy khách tùy chỉnh", các tác giả nhận định.

Relay chuyển tiếp gói tin không trạng thái tới transceiver

Tối ưu cho AI tương tác thời gian thực

WebRTC là lựa chọn phổ biến cho các khối lượng công việc AI thời gian thực. Ngoài việc truyền tải media độ trễ thấp, nó còn cung cấp khả năng xuyên qua NAT, vận chuyển được mã hóa, đàm phán codec, bộ đệm rung (jitter buffering) và các tính năng âm thanh như hủy tiếng vang trên các nền tảng trình duyệt và di động. STUN là một phần của nền tảng này, giúp các điểm cuối khám phá cách chúng xuất hiện trên mạng và hỗ trợ ICE trong quá trình kiểm tra kết nối.

Nhiều đội ngũ mặc định chọn các đơn vị chuyển tiếp chọn lọc (SFU - Selective Forwarding Units) vì chúng tập trung hóa định tuyến media và chính sách cho các hệ thống đa người tham gia. Tuy nhiên, khối lượng công việc của OpenAI chủ yếu là các phiên 1:1 giữa người dùng và mô hình, khiến thiết kế transceiver phù hợp hơn so với việc coi mô hình là một người tham gia khác trong kiến trúc kiểu hội nghị.

Bài đăng này thêm chi tiết hạ tầng vào nỗ lực thúc đẩy giọng nói thời gian thực rộng rãi hơn của OpenAI, vốn đã có sẵn trong các sản phẩm như ChatGPT Voice và Realtime API. Đối với các kiến trúc sư xây dựng hệ thống media tương tác, mẫu thú vị hơn chính là sự phân giải này: bảo toàn hành vi giao thức tại biên, giữ trạng thái phiên khó khăn ở một nơi và chuyển độ phức tạp mở rộng quy mô vào một lớp định tuyến mỏng thay vì lan truyền nó trên các dịch vụ backend.

OpenAI công bố kiến trúc WebRTC mới cho Voice AI độ trễ thấp quy mô lớn

Thách thức với mô hình truyền thống

Giải pháp Relay-Transceiver

Tối ưu cho AI tương tác thời gian thực

Bài viết liên quan