Thinking Machines giới thiệu Mô hình Tương tác: Cách mạng hóa sự cộng tác giữa Con người và AI

Thinking Machines Lab công bố bản xem trước nghiên cứu về Mô hình Tương tác (Interaction Models), loại AI mới xử lý âm thanh, hình ảnh và văn bản một cách tự nhiên theo thời gian thực. Mô hình này nhằm phá vỡ rào cản giao diện luân phiên hiện tại, cho phép con người và AI cộng tác mượt mà như cách chúng ta nói chuyện với nhau.

Hôm nay, Thinking Machines Lab đã công bố bản xem trước nghiên cứu về một loại mô hình mới: Mô hình Tương tác (Interaction Models). Đây là những mô hình AI được thiết kế để xử lý tương tác một cách nguyên bản (native) thay vì dựa vào các công cụ hỗ trợ bên ngoài. Đội ngũ phát triển tin rằng khả năng tương tác nên đi đôi với trí thông minh; cách chúng ta làm việc cùng AI không nên chỉ là một suy nghĩ sau cùng.

Mô hình Tương tác cho phép con người cộng tác với AI theo cách tự nhiên nhất giống như chúng ta cộng tác với nhau: liên tục tiếp nhận âm thanh, video và văn bản, đồng thời suy nghĩ, phản hồi và hành động trong thời gian thực.

Mô hình tương tác AI

Nút thắt trong sự cộng tác hiện tại

Các phòng lab AI thường coi khả năng tự chủ của AI là năng lực quan trọng nhất. Kết quả là, các mô hình và giao diện ngày nay không được tối ưu hóa để con người có thể giữ liên tục trong quy trình làm việc (human-in-the-loop). Một tài liệu mô hình gần đây đã thừa nhận rằng khi sử dụng theo cách tương tác đồng bộ, người dùng cảm thấy mô hình quá chậm và không mang lại nhiều giá trị bằng cách sử dụng tự chủ hoàn toàn.

Tuy nhiên, trong hầu hết công việc thực tế, người dùng không thể xác định đầy đủ các yêu cầu ngay từ đầu và rời đi. Kết quả tốt nhất đến từ một quy trình cộng tác mà con người vẫn ở trong vòng lặp, làm rõ và đưa ra phản hồi dọc theo đường đi. Vấn đề là con người ngày càng bị đẩy ra ngoài không phải vì công việc không cần họ, mà vì giao diện không còn chỗ cho họ.

Để giải quyết việc này, chúng ta cần vượt qua giao diện dựa trên lượt (turn-based) hiện tại. Các mô hình hiện nay trải nghiệm thực tế trong một luồng đơn. Cho đến khi người dùng kết thúc việc gõ hoặc nói, mô hình sẽ chờ đợi mà không nhận thức được người dùng đang làm gì. Điều này tạo ra một kênh hẹp cho sự cộng tác giữa người và AI.

Giải pháp: Mô hình Tương tác thời gian thực

Tại Thinking Machines, họ tin rằng có thể giải quyết nút thắt băng thông này bằng cách làm cho AI tương tác thời gian thực trên mọi phương thức. Điều này cho phép các giao diện AI tiếp cận con người ở nơi họ đang đứng, thay vì ép buộc con người phải co duỗi mình để phù hợp với giao diện AI.

Hầu hết các mô hình AI hiện tại "gắn thêm" tính tương tác bằng cách nối các thành phần lại với nhau để mô phỏng sự ngắt lời, đa phương thức hoặc tính đồng thời. Tuy nhiên, để tính tương tác có thể mở rộng cùng với trí thông minh, nó phải là một phần của chính mô hình đó.

Kiến trúc hệ thống

Khả năng nổi bật

Việc tích hợp tính tương tác vào bên trong mô hình mở ra nhiều khả năng mà nếu không sẽ cần phải được triển khai trong các lớp hỗ trợ phức tạp:

Quản lý hội thoại liền mạch: Mô hình theo dõi ngầm định liệu người nói đang suy nghĩ, nhường lời, tự sửa lỗi hay mời phản hồi. Không có thành phần quản lý hội thoại riêng biệt.
Ngắt lời bằng lời nói và hình ảnh: Mô hình có thể chêm vào khi cần tùy theo ngữ cảnh, không chỉ chờ đến khi người dùng nói xong.
Nói chuyện đồng thời: Người dùng và mô hình có thể nói cùng lúc (ví dụ: dịch trực tiếp).
Nhận thức thời gian: Mô hình có cảm giác trực tiếp về thời gian đã trôi qua.
Gọi công cụ, tìm kiếm và tạo UI đồng thời: Trong khi nói và nghe người dùng, mô hình có thể đồng thời tìm kiếm, duyệt web hoặc tạo giao diện người dùng, sau đó lồng ghép kết quả vào cuộc trò chuyện khi cần.

Cách tiếp cận kỹ thuật

Mô hình tương tác nằm trong sự trao đổi hai chiều liên tục với người dùng — nhận thức và phản hồi cùng một lúc. Hệ thống được kiến trúc xung quanh hai ý tưởng: một mô hình tương tác nhận thức thời gian duy trì sự hiện diện thời gian thực, và một mô hình nền (background model) xử lý suy luận bền bỉ, sử dụng công cụ và công việc dài hạn hơn.

Micro-turn căn chỉnh thời gian

Mô hình tương tác hoạt động với các "micro-turn" (vi-lượt) liên tục xen kẽ việc xử lý 200ms đầu vào và tạo ra 200ms đầu ra. Thay vì tiêu thụ một lượt người dùng hoàn chỉnh và tạo ra một phản hồi hoàn chỉnh, cả token đầu vào và đầu ra đều được coi là các luồng. Việc làm việc với các khối luồng này cho phép tính đồng thời gần như thời gian thực của nhiều phương thức đầu vào và đầu vào.

Hợp nhất sớm không dùng Encoder

Thay vì xử lý âm thanh và video qua các bộ mã hóa (encoder) lớn, độc lập, họ chọn một hệ thống với tiền xử lý tối thiểu. Âm thanh được đưa vào dưới dạng tín hiệu dMel và biến đổi qua một lớp nhúng nhẹ. Hình ảnh được chia thành các patch 40x40 được mã hóa bởi hMLP. Tất cả các thành phần được đồng huấn luyện từ đầu cùng với transformer.

Hiệu năng và Đánh giá

Thinking Machines cho thấy mô hình tương tác của họ, tên là TML-Interaction-Small, là mô hình đầu tiên có cả trí thông minh/khả năng tuân thủ mệnh lệnh mạnh mẽ và khả năng tương tác tốt.

Để đo lường chất lượng tương tác, họ sử dụng FD-bench. Mô hình đạt điểm cao trong tất cả các kịch bản: người dùng ngắt lời, người dùng phản hồi ngược, nói chuyện với người khác và tiếng nền. Để định lượng trí thông minh, họ sử dụng Audio MultiChallenge.

Kết quả cho thấy TML-Interaction-Small thống trị về chất lượng tương tác trong khi vẫn thông minh hơn bất kỳ mô hình không suy luận (non-thinking) nào khác. Họ đạt được độ phản hồi tốt nhất được đo là độ trễ giữa các lượt của người dùng và mô hình.

Các chiều hướng mới của tương tác

Các điểm chuẩn tương tác hiện tại chưa bắt kịp các bước nhảy vọt về khả năng tương tác mà Thinking Machines nhận thấy. Họ đã giới thiệu các khả năng mới như:

Nhận thức thời gian và nói chuyện đồng thời: Mô hình có thể khởi tạo lời nói tại thời điểm do người dùng chỉ định hoặc sửa phát âm ngay khi nghe thấy.
Chủ động thị giác: Các API thương mại hiện nay thường chỉ phản hồi các lượt nói. Mô hình mới có thể chủ động chọn nói khi thế giới thị giác thay đổi. Ví dụ, khi được yêu cầu "đếm xem tôi có bao nhiêu cái hít đất", hệ thống có thể đếm to theo thời gian thực thay vì chỉ im lặng chờ lệnh.

Thinking Machines Lab dự kiến sẽ mở bản xem trước nghiên cứu giới hạn trong những tháng tới để thu thập phản hồi, với bản phát hành rộng rãi hơn vào cuối năm nay.