Mô hình Transformer có thể "đọc vị" số giả ngẫu nhiên: Một bước tiến mới trong AI và Bảo mật

Nghiên cứu mới từ arXiv đã chứng minh khả năng đáng kinh ngạc của các mô hình Transformer trong việc học và dự đoán chuỗi số từ bộ tạo số giả ngẫu nhiên (PCG) phức tạp. Không chỉ vượt qua các phương pháp tấn công cổ điển, mô hình này còn phát hiện ra các quy luật ẩn sâu trong cấu trúc bit, đặt ra những thách thức mới đối với an ninh mật mã. Kết quả cũng nhấn mạnh vai trò quan trọng của curriculum learning trong việc huấn luyện các mô hình trên dữ liệu quy mô lớn.

Trong một nghiên cứu mới đăng trên arXiv, các nhà khoa học dữ liệu Tao Tao và Maissam Barkeshli đã khám phá ra khả năng đáng kinh ngạc của các mô hình Transformer trong việc học và dự đoán các chuỗi số được tạo ra bởi bộ tạo số giả ngẫu nhiên (PRNG). Cụ thể, nghiên cứu tập trung vào họ Permuted Congruential Generators (PCG) — một loại thuật toán được sử dụng rộng rãi nhờ tính hiệu quả và độ phức tạp cao.

Thách thức từ bộ tạo số PCG

Bộ tạo số đồng dư có hoán vị (PCG) được biết đến là một phiên bản nâng cấp và khó khăn hơn nhiều so với bộ tạo số đồng dư tuyến tính (LCG) truyền thống. Khó khăn của PCG nằm ở việc nó áp dụng một loạt các thao tác bitwise phức tạp lên trạng thái ẩn, bao gồm dịch chuyển bit, XOR (phép hoặc loại trừ), xoay vòng và cắt ngắn.

Trước đây, người ta cho rằng các thao tác này tạo ra sự ngẫu nhiên đủ mạnh để chống lại các phương pháp phân tích thống kê cổ điển. Tuy nhiên, nghiên cứu này đã chứng minh rằng trí tuệ nhân tạo hiện đại có thể "đánh bại" sự phức tạp đó.

Transformer vượt qua giới hạn cổ điển

Kết quả thí nghiệm cho thấy các mô hình Transformer có khả năng thực hiện dự đoán trong ngữ cảnh (in-context prediction) chính xác trên các chuỗi số chưa từng thấy, ngay cả khi chúng được tạo ra từ các biến thể PCG đa dạng. Điều này đặc biệt ấn tượng vì mô hình đã vượt qua được các cuộc tấn công mật mã học đã được công bố trước đó.

Trong các bài kiểm nghiệm, nhóm nghiên cứu đã mở rộng mô-đun (moduli) lên đến $2^{22}$, sử dụng mô hình với lên đến 50 triệu tham số và tập dữ liệu chứa 5 tỷ token. Một phát hiện gây bất ngờ là ngay cả khi đầu ra bị cắt ngắn chỉ còn một bit duy nhất, mô hình vẫn có thể dự đoán nó một cách đáng tin cậy.

Hơn nữa, khi được huấn luyện cùng lúc trên nhiều bộ tạo số PRNG khác nhau, Transformer có khả năng học chung chúng và xác định được các cấu trúc từ các hoán vị khác nhau.

Quy luật mở rộng và Curriculum Learning

Nghiên cứu cũng chỉ ra một quy luật mở rộng (scaling law) thú vị liên quan đến mô-đun $m$: số lượng phần tử chuỗi trong ngữ cảnh cần thiết để đạt dự đoán gần như hoàn hảo sẽ tăng trưởng theo tỷ lệ $\sqrt{m}$.

Tuy nhiên, đối với các mô-đun lớn, quá trình tối ưu hóa sẽ gặp phải các giai đoạn trì trệ kéo dài. Các thí nghiệm cho thấy việc học các mô-đun $m \ge 2^{20}$ đòi hỏi phải kết hợp dữ liệu huấn luyện từ các mô-đun nhỏ hơn. Điều này chứng minh sự cần thiết của Curriculum Learning (học theo giáo trình) — phương pháp huấn luyện từ dễ đến khó — để giúp mô hình làm chủ các bài toán phức tạp.

Tính giải thích được và hiện tượng phân cụm

Một khía cạnh quan trọng khác của nghiên cứu là phân tích tính giải thích được (interpretability). Bằng cách phân tích các lớp nhúng (embedding layers), các tác giả đã phát hiện ra một hiện tượng phân cụm mới lạ: các thành phần chính hàng đầu tự động nhóm các đầu vào số nguyên thành các cụm bất biến theo sự xoay vòng bit.

Phát hiện này hé lộ cách các biểu diễn trong mô hình có thể chuyển giao từ các mô-đun nhỏ sang các mô-đun lớn hơn, mở đường cho việc hiểu sâu hơn về cách AI xử lý các cấu trúc toán học trừu tượng.

Kết luận

Nghiên cứu này không chỉ khẳng định sức mạnh của mô hình Transformer trong việc nắm bắt các quy logic toán học phức tạp mà còn đặt ra những câu hỏi lớn về an ninh mạng. Nếu AI có thể dự đoán các số giả ngẫu nhiên — vốn là nền tảng của nhiều hệ thống mã hóa — thì các tiêu chuẩn an ninh hiện tại có thể cần được xem xét lại trong kỷ nguyên trí tuệ nhân tạo.

Mô hình Transformer có thể "đọc vị" số giả ngẫu nhiên: Một bước tiến mới trong AI và Bảo mật

Thách thức từ bộ tạo số PCG

Transformer vượt qua giới hạn cổ điển

Quy luật mở rộng và Curriculum Learning

Tính giải thích được và hiện tượng phân cụm

Kết luận

Bài viết liên quan