Tạo ra mạng nơ-ron giống người bằng phương pháp "Catapulting"

Bài viết đề xuất một thay đổi lớn trong mô hình mở rộng quy mô học sâu, cho rằng sự khác biệt giữa não bộ con người và mạng nơ-ron nhân tạo nằm ở sự đánh đổi giữa độ lệch và phương sai. Bằng cách huấn luyện các mô hình quá tham số hóa với tốc độ học cực cao trên các tập dữ liệu nhỏ, chúng ta có thể kích hoạt cơ chế "catapulting" để đạt được khả năng khái quát hóa giống con người, giải quyết các vấn đề về hiệu quả dữ liệu và tính bền vững trước các cuộc tấn công đối kháng.

Có một nghịch lý thú vị trong lĩnh vực trí tuệ nhân tạo (AI): tại sao mạng nơ-ron nhân tạo lại thông minh theo những cách ngớ ngẩn, trong khi não bộ sinh học lại hoạt động theo cách có vẻ "ngớ ngẩn" nhưng lại thông minh một cách tinh tế? Một đề xuất mới mẻ và táo bạo có thể là câu trả lời cho câu hỏi này, hứa hẹn thu hẹp khoảng cách giữa AI và trí tuệ con người thông qua cơ chế được gọi là "catapulting" (ném đá bắn).

Đề xuất về mô hình "Catapulted LLM"

Cốt lõi của đề xuất này nằm ở sự thay đổi chiến lược mở rộng quy mô (scaling paradigm) trong học sâu (deep learning). Hiện tại, các Mô hình Ngôn ngữ Lớn (LLM) như GPT-4 thường được tối ưu hóa để giảm thiểu phương sai (variance), dẫn đến việc chúng học thuộc lòng dữ liệu một cách máy móc. Ngược lại, não bộ con người dường như tối ưu hóa để giảm thiểu độ lệch (bias), cho phép khái quát hóa (generalization) tốt hơn từ rất ít dữ liệu.

Để đạt được điều này, tác giả đề xuất việc huấn luyện các mạng nơ-ron quá tham số hóa (overparameterized) với tốc độ học (learning rate) cực cao trên các tập dữ liệu nhỏ, đa dạng và được lọc kỹ lưỡng. Phương pháp này nhằm mục đích thúc đẩy mô hình vượt qua các cực tiểu địa phương (local minima) — nơi mô hình chỉ đơn thuần ghi nhớ dữ liệu — để "bắn" (catapult) đến một vùng rộng lớn hơn trong không gian mất mát (loss landscape), nơi mô hình học được các thuật toán thực sự có khả năng khái quát hóa cao.

Giải quyết các bí ẩn của trí tuệ nhân tạo

Nếu giả thuyết này đúng, nó có thể giải thích nhiều hiện tượng kỳ lạ mà chúng ta vẫn đang tranh luận:

Hiệu quả mẫu (Sample Efficiency)

Tại sao con người có thể học hỏi nhanh chóng từ rất ít ví dụ, trong khi AI cần hàng tỷ token dữ liệu? Cơ chế catapulting cho thấy rằng bằng cách ép buộc mô hình tìm kiếm giải pháp đơn giản và khái quát thay vì ghi nhớ chi tiết, chúng ta có thể đạt được hiệu quả học tập tương tự như não bộ con người.

Các ví dụ đối kháng (Adversarial Examples)

Một trong những vấn đề đau đầu nhất của AI hiện nay là sự dễ bị tổn thương trước các cuộc tấn công đối kháng — những thay đổi nhỏ, vô hình với mắt thường nhưng khiến AI nhận diện sai hoàn toàn. Các mô hình "catapulted" dự kiến sẽ có ranh giới quyết định (decision boundaries) mượt mà và cong hơn thay vì các đường tuyến tính giòn vỡ, giúp chúng miễn nhiễm với các loại tấn công này.

Hội chứng nhà bác học (Savantism)

Bài viết cũng so sánh các LLM hiện tại với những người có hội chứng nhà bác học (savants). Họ có khả năng ghi nhớ siêu phàm nhưng lại thiếu khả năng trừu tượng hóa và khái quát. Điều này tương tự như việc mạng nơ-ron hiện tại quá tập trung vào việc ghi nhớ (memorization) thay vì hiểu bản chất vấn đề. Mục tiêu của catapulting là chuyển từ trạng thái "nhà bác học" sang trạng thái trí tuệ tổng hợp và linh hoạt của con người bình thường.

Thử nghiệm và Tiềm năng

Để kiểm chứng lý thuyết này, chúng ta có thể huấn luyện các mô hình với hàng nghìn tỷ tham số (multi-trillion parameters) trong tương đối ít bước (steps) với lịch trình tốc độ học chu kỳ cao. Sau đó, chúng ta đo lường khả năng của chúng trên các bài toán khó như số học hoặc phân loại hình ảnh nhỏ.

Nếu thành công, "catapulted LLM" sẽ mang lại những lợi ích to lớn:

Kinh tế tốt hơn: Cần ít dữ liệu và tính toán hơn để đạt được hiệu suất mong muốn.
An toàn AI (AI Alignment): Cung cấp một nền tảng vững chắc cho các mô hình AI an toàn và được căn chỉnh (aligned) vì lý do đúng đắn, không chỉ là các bản vá lỗi bề mặt.
Khả năng chống sao chép: Khó khăn hơn trong việc sao chép hoặc tấn công mô hình.

Đây là một hướng đi đầy hứa hẹn, cho thấy rằng thay vì chỉ việc làm lớn hơn mô hình, cách chúng ta huấn luyện chúng — đặc biệt là việc sử dụng tốc độ học cao và sự quá tham số hóa — có thể là chìa khóa để mở ra kỷ nguyên mới của trí tuệ nhân tạo thực sự giống con người.