Thinking Machines giới thiệu mô hình AI tương tác thời gian thực, chấm dứt kỷ nguyên chat "lượt chơi"

Startup Thinking Machines do cựu CTO OpenAI Mira Murati sáng lập vừa công bố bản xem trước các "mô hình tương tác" mới, cho phép AI xử lý âm thanh và video gần như thời gian thực. Với kiến trúc "full-duplex" độc đáo, hệ thống này hứa hẹn giảm độ trễ đáng kể và mang lại khả năng cộng tác tự nhiên hơn cho người dùng.

Thinking Machines, startup AI được thành lập bởi cựu Giám đốc công nghệ (CTO) của OpenAI Mira Murati, vừa công bố bản xem trước nghiên cứu về những gì họ gọi là "mô hình tương tác" (interaction models). Đây được xem là một lớp hệ thống đa phương thức (multimodal) mới, coi khả năng tương tác là yếu tố cốt lõi của kiến trúc mô hình thay vì chỉ là một phần mềm bổ trợ bên ngoài.

Hiện tại, hầu hết các mô hình AI hoạt động theo cơ chế "lượt chơi" (turn-based): người dùng đưa ra đầu vào, chờ đợi xử lý và nhận kết quả. Tuy nhiên, Thinking Machines cho rằng nếu AI muốn thực sự đảm nhận các công việc đòi hỏi sự tương tác tự nhiên, nó cần phản hồi linh hoạt hơn, thậm chí xử lý tiếp theo đầu vào của người dùng ngay trong khi đang đưa ra phản hồi.

Kiến trúc "Full duplex" và xử lý đồng thời

Tại trung tâm của thông báo này là sự thay đổi cơ bản trong cách AI nhận thức thời gian và sự hiện diện. Các mô hình tiên phong hiện nay thường trải nghiệm thực tế theo một luồng đơn; chúng chờ người dùng hoàn thành đầu vào trước khi bắt đầu xử lý và nhận thức của chúng bị "đóng băng" trong khi tạo ra phản hồi.

Để giải quyết nút thắt cộng tác này, Thinking Machines đã chuyển sang thiết kế đa luồng và vi-lượt (micro-turn), xử lý đồng thời các khối dữ liệu đầu vào và đầu ra trong 200ms.

Kiến trúc "full-duplex" này cho phép mô hình lắng nghe, nói và nhìn theo thời gian thực. Nó có khả năng đưa ra các tín hiệu phản hồi ngầm (backchannel) trong khi người dùng đang nói hoặc ngắt lời khi phát hiện một tín hiệu thị giác—ví dụ như người dùng đang viết một lỗi trong đoạn mã hoặc một người bạn bước vào khung hình video.

Về mặt kỹ thuật, mô hình sử dụng phương pháp fusion sớm không cần bộ mã hóa (encoder-free early fusion). Thay vì dựa vào các bộ mã hóa khổng lồ độc lập như Whisper cho âm thanh, hệ thống nhận các tín hiệu âm thanh thô dưới dạng dMel và các mảnh hình ảnh (40x40) thông qua một lớp nhúng nhẹ, đồng huấn luyện tất cả các thành phần từ đầu trong bộ biến đổi (transformer).

Hệ thống mô hình kép

Bản xem trước nghiên cứu giới thiệu TML-Interaction-Small, một mô hình Mixture-of-Experts (MoE) với 276 tỷ tham số, trong đó có 12 tỷ tham số hoạt động. Vì tương tác thời gian thực đòi hỏi thời gian phản hồi gần như tức thì thường xung đột với khả năng suy luận sâu, công ty đã thiết kế một hệ thống gồm hai phần:

Mô hình Tương tác (The Interaction Model): Duy trì trao đổi liên tục với người dùng, xử lý quản lý hội thoại, sự hiện diện và các phản hồi ngay lập tức.
Mô hình Nền (The Background Model): Một tác nhân bất đồng bộ xử lý suy luận bền bỉ, duyệt web hoặc các lệnh công cụ phức tạp, sau đó truyền kết quả về mô hình tương tác để lồng ghép tự nhiên vào cuộc trò chuyện.

Cài đặt này cho phép AI thực hiện các tác vụ như dịch trực tiếp hoặc tạo biểu đồ UI trong khi vẫn tiếp tục lắng nghe phản hồi của người dùng.

Hiệu suất ấn tượng trên các benchmark

Để chứng minh hiệu quả của phương pháp này, phòng thí nghiệm đã sử dụng FD-bench, một benchmark được thiết kế đặc biệt để đo lường chất lượng tương tác thay vì chỉ là trí thông minh thô. Kết quả cho thấy TML-Interaction-Small vượt trội đáng kể so với các hệ thống thời gian thực hiện có:

Khả năng phản hồi: Đạt độ trễ luân phiên (turn-taking latency) là 0,40 giây, so với 0,57 giây của Gemini-3.1-flash-live và 1,18 giây của GPT-realtime-2.0.
Chất lượng tương tác: Trên FD-bench V1.5, nó đạt điểm 77,8, gần như gấp đôi điểm số của các đối thủ cạnh tranh chính (GPT-realtime-2.0 đạt 46,8).
Chủ động thị giác: Trong các bài kiểm tra chuyên biệt như RepCount-A (đếm số lần lặp lại vật lý trong video) và ProactiveVideoQA, mô hình của Thinking Machines tương tác thành công với thế giới thị giác trong khi các mô hình tiên phong khác vẫn im lặng hoặc đưa ra câu trả lời sai.

Ứng dụng tiềm năng cho doanh nghiệp

Nếu được cung cấp cho khu vực doanh nghiệp, các mô hình tương tác của Thinking Machines sẽ đại diện cho sự thay đổi cơ bản trong cách các công ty tích hợp AI vào quy trình vận hành.

Một mô hình tương tác nguyên bản như TML-Interaction-Small cho phép một số khả năng doanh nghiệp mà hiện tại là không thể hoặc rất khó thực hiện với các mô hình đa phương thức tiêu chuẩn:

Giám sát an toàn trong sản xuất: Trong môi trường sản xuất hoặc phòng thí nghiệm, mô hình có thể giám sát nguồn cấp video và chủ động can thiệp ngay khi phát hiện vi phạm an toàn mà không cần chờ công nhân yêu cầu phản hồi.
Hỗ trợ khách hàng bằng giọng nói: Độ trễ luân phiên 0,40 giây của Thinking Machines tương đương với tốc độ của cuộc trò chuyện giữa người với người. Bot hỗ trợ có thể lắng nghe sự thất vọng của khách hàng, đưa ra tín hiệu phản hồi ngầm như "tôi hiểu" mà không làm gián đoạn người dùng.
Nhận thức thời gian: Các mô hình tương tác có khả năng nhận thức thời gian một cách nguyên bản, cho phép chúng quản lý các quy trình nhạy cảm về thời gian như "Nhắc tôi kiểm tra nhiệt độ mỗi 4 phút". Điều này quan trọng trong bảo trì công nghiệp và nghiên cứu dược phẩm.

Về Thinking Machines

Đây là cột mốc quan trọng thứ hai của Thinking Machines sau sự ra mắt của Tinker vào tháng 10 năm 2025. Được thành lập vào đầu năm 2025, công ty tự định vị là một công ty nghiên cứu và sản phẩm AI cố gắng làm cho các hệ thống AI tiên tiến "được hiểu rộng rãi hơn, có thể tùy chỉnh và có khả năng tổng quát hơn".

Vào tháng 7 năm 2025, Thinking Machines cho biết họ đã huy động được khoảng 2 tỷ USD với mức định giá 12 tỷ USD trong một vòng gọi vốn do Andreessen Horowitz dẫn đầu, với sự tham gia của Nvidia, Accel, ServiceNow, Cisco, AMD và Jane Street.

Về mặt nhân sự, mặc dù Meta đã tuyển dụng một số thành viên sáng lập từ Thinking Machines, nhưng công ty này cũng đã tuyển dụng Soumith Chintala, người tạo ra PyTorch và cựu nhân viên của Meta, làm CTO. Thinking Machines trước đây stated cam kết về "các thành phần mã nguồn mở đáng kể" trong các bản phát hành của mình, tuy nhiên vẫn chưa rõ các mô hình tương tác mới này có tuân theo cùng tinh thần đó hay không.