Nghiên cứu: Cơ chế Attention trong Transformer thiếu hụt khả năng kiểm soát điều hành

Một nghiên cứu mới đăng trên PNAS Nexus đã chỉ ra rằng các mô hình Transformer hiện đại gặp khó khăn trong việc thực hiện 'kiểm soát điều hành', một khả năng nhận thức quan trọng. Điều này đặt ra câu hỏi về giới hạn của trí tuệ nhân tạo tạo sinh (Generative AI) trong việc xử lý lý luận phức tạp và quản lý thông tin mâu thuẫn.

Một nghiên cứu mới được công bố trên tạp chí PNAS Nexus đã làm sáng tỏ một hạn chế quan trọng trong kiến trúc của các mô hình Transformer, nền tảng cho các hệ thống AI tạo sinh (Generative AI) phổ biến hiện nay như GPT-4 hay Claude. Theo đó, các mô hình này thể hiện sự thiếu hụt trong khả năng "kiểm soát điều hành" (executive control) so với cơ chế nhận thức của con người.

Kiểm soát điều hành trong AI và Não bộ

Trong tâm lý học nhận thức, kiểm soát điều hành là tập hợp các quy trình tâm lý cao cấp cho phép chúng ta lập kế hoạch, tập trung sự chú ý, ghi nhớ thông tin và kiềm chế các phản ứng tự nhiên không phù hợp. Đối với các hệ thống AI, khả năng này tương đương với việc mô hình có thể duy trì mục tiêu, bỏ qua các thông tin gây nhiễu và chuyển đổi linh hoạt giữa các nhiệm vụ khác nhau.

Nghiên cứu chỉ ra rằng, mặc dù cơ chế "attention" (chú ý) trong Transformer cho phép mô hình cân nhắc nhiều phần của dữ liệu đầu vào cùng lúc, nhưng nó chưa thực sự mô phỏng được khả năng kiểm soát linh hoạt của não bộ con người.

Hạn chế trong việc xử lý thông tin mâu thuẫn

Các tác giả của nghiên cứu đã thực hiện các thí nghiệm để kiểm tra khả năng của Transformer trong các tình huống đòi hỏi sự kiểm soát nhận thức. Kết quả cho thấy các mô hình này thường gặp khó khăn khi cần ức chế các phản ứng tự động dựa trên thống kê để tuân theo một quy tắc logic cụ thể.

Ví dụ, khi đối mặt với các thông tin mâu thuẫn hoặc các nhiệm vụ đòi hỏi sự chuyển đổi ngữ cảnh đột ngột, Transformer có xu hướng bị "lạc hướng" bởi các mẫu dữ liệu phổ biến trong tập huấn luyện thay vì thực hiện đúng lệnh logic của tác vụ tại thời điểm đó.

"Sự thiếu hụt kiểm soát điều hành này giải thích một phần lý do tại sao các mô hình ngôn ngữ lớn đôi khi mắc lỗi logic hoặc tạo ra các thông tin không chính xác (ảo giác) khi câu hỏi yêu cầu một chuỗi suy luận đa bước phức tạp."

Tác động đến phát triển AI trong tương lai

Phát hiện này có ý nghĩa quan trọng đối với hướng phát triển của công nghệ AI trong tương lai. Trong khi việc mở rộng quy mô mô hình (scaling up) và tăng dung lượng dữ liệu đã mang lại những bước tiến vượt bậc về khả năng ngôn ngữ, nó dường như không giải quyết triệt để vấn đề về sự kiểm soát và lý luận sâu sắc.

Để khắc phục, các nhà nghiên cứu đề xuất rằng thế hệ tiếp theo của AI có thể cần tích hợp các cơ chế kiểm soát điều hành rõ ràng hơn vào kiến trúc mạng. Điều này có thể bao gồm việc kết hợp các module chuyên biệt xử lý quy tắc và logic, hoặc lai tạo Transformer với các kiến trúc mạng nơ-ron khác có khả năng duy trì trạng thái nội tại tốt hơn.

Việc hiểu rõ những hạn chế này không chỉ giúp cải thiện hiệu suất của các hệ thống AI hiện tại mà còn đưa chúng ta đến gần hơn với việc xây dựng các máy móc có khả năng suy luận và hiểu biết tương đương với con người.